Fútbol, big data y UD Las Palmas

[N.d.E] Artículo de colaboración de Jorge López, Data Scientist de profesión y aficionado de la UD Las Palmas, hablando de un tema de actualidad como la aplicación del Big Data en el mundo del fútbol.



Big data es un concepto de moda que se desvirtúa al mismo ritmo del que se habla de él. Big data significa literalmente “muchos datos” y nunca dos palabras se autodefinieron tan bien. En el entorno amarillo se mentaron por primera vez tras la destitución de Pepe Mel y dio lugar a todo tipo de comentarios y chascarrillos. Entonces, ¿qué es big data? En resumidas cuentas, volúmenes masivos de datos almacenados de forma más o menos estructurada. Y por masivo hablamos de miles de millones o billones de registros: las búsquedas en Amazon a lo largo y ancho del planeta, la información que transmiten los sensores de los aviones o los coches, el tráfico red de una compañía telefónica…

Pero vamos a lo nuestro, ¿qué es el big data en el fútbol? Lo más cercano a su definición es lo que se conoce como datos de eventing, que, por qué no decirlo, está muy lejos de los volúmenes de los ejemplos anteriores. En cada instante de tiempo, en cada segundo, puedes recopilar información de lo que está sucediendo en el campo: quién tiene la pelota, coordenadas de cada jugador, quién da un pase, con qué pie… en definitiva, todo. Uno de los principales proveedores de datos publica una muestra gratuita de cómo son los datos de eventos que ellos comercializan.

Estas son las primeras líneas de un partido Barcelona – Alavés; el saque inicial, la primera posesión del Alavés y la recuperación del Barcelona. Solo la primera parte de ese partido tiene 4000 filas como estas. Unos números rápidos; si cada partido tiene unos 8000 registros, a 10 partidos por jornada y teniendo 38 jornadas te salen alrededor de 3 millones de filas para ver negro sobre blanco lo que ha sucedido en el campo durante una temporada completa. Este volumen de información es relativamente manejable, pero acumularla en distintas temporadas y ligas suma una cantidad de información considerable.


¿Para qué sirve el eventing? Pues, por ejemplo, para hacer los mapas de calor de los jugadores que vemos en las retransmisiones. También sirve para agregar esa información y tener una visión más completa de un partido; en donde antes tenías solamente el número de pases ahora tienes el número de pases en campo contrario o incluso en determinadas coordenadas del campo. Además, estos datos te permiten calcular métricas muy interesantes como los goles esperados (xG), que indica la probabilidad de que un disparo termine en gol, teniendo en cuenta cualquier tipo de información que podamos recoger en el momento del disparo: la posición del jugador, la pierna con la que golpea, los jugadores que tiene alrededor, la ubicación del portero, distancia al arco, etc. En la siguiente imagen se puede ver el cálculo de goles esperados acumulados para un Aston Villa – Manchester United. Este partido terminó 2-2 pero en goles esperados el resultado fue de 1.35 – 1.83 para el Aston Villa.

Goles esperados acumulados. Fuente: @R_by_Ryo

Cada gol está señalado en el gráfico. El primero de Bruno Fernandes tenía una probabilidad asociada de gol (en el momento del disparo) de un 1%, mientras que el segundo tenía un 34%. Recuerda que son probabilidades estimadas teniendo en cuenta muchas variables y que no solo es útil para ver la probabilidad asociada a un gol; por ejemplo, después del gol de Ramsey (alrededor del minuto 65) el Manchester no generó prácticamente ninguna ocasión. Viendo el resumen del partido se entiende que el primer gol de Fernandes solo tenía un 1% de probabilidad…

Además de los datos de eventing hay otros datos más agregados que permiten, por ejemplo, calcular métricas de similitud entre jugadores, extremadamente útil para las labores de scouting de las secretarías técnicas. Si para cada jugador tienes cientos y cientos de variables, ¿cómo puedes saber de forma análitica el reemplazo adecuado para el jugador que acabas de perder? Hay técnicas, denominadas de reducción de dimensionalidad, que te permiten convertir un gran número de variables en otro espacio más reducido manteniendo la mayor parte de la información. En el siguiente gráfico puedes ver una de estás técnicas para un conjunto muy reducido de variables (y muy lejos de ser un caso de uso real). He tomado los datos de understat de la temporada 2020/2021 para algunos delanteros de La Liga y he empleado una de las técnicas que se utilizan para calcular la similitud entre jugadores. Sin profundizar demasiado, simplemente observa las flechas. Todas tienen un sentido común: las verticales son asistencias, asistencias esperadas, pases claves, mientras que las horizontales son número de disparos, goles esperados, etc. Alcácer o Lucas Pérez están destacados en la primera dimensión, mientras que Luis Suárez, En-Nesyri o Isak en  la segunda. Benzema, en ambas.

Análisis de componentes principales. Dos primeras dimensiones (métricas por 90 min). Elaboración propia.
Análisis de componentes principales. Dos primeras dimensiones (métricas por 90 min). Elaboración propia.

Si en lugar de estas dos dimensiones (disparos y asistencias) tuviéramos en cuenta alguna más podríamos ver la similitud entre jugadores con una matriz como la siguiente, en donde pares de jugadores con un valor cercano a 1 tienen métricas (por 90 minutos) similares.

Similitud entre jugadores. Contribución a las 5 primeras dimensiones. Elaboración propia.

Aunque parezca que el análisis de datos en el fútbol se explota desde hace décadas, esto no es así. En el mundo del fútbol la mayoría de los equipos se están iniciando. La UD empezó a introducirse con la contratación de Paco González como responsable del departamento de Desarrollo Digital y Big Data. Es difícil saber si Paco González está directamente contratado por la UD o subcontratado a través de su sociedad unipersonal Moneyball Data, pero lo cierto es que el anuncio de su incorporación pasó desapercibido. Sin embargo, su nombre irrumpió en escena recientemente, cuando desde el club se transmitió la idea de que el big data había ayudado a tomar la decisión de destituir a Pepe Mel. Hay dos cosas que puntualizar aquí. La primera es que el mismo club amortiguó acertadamente esta idea en la última rueda de prensa de Luis Helguera. Lo segundo es que, técnicamente, el big data no toma esta decisión de ninguna manera. Permítanme mostrar mi escepticismo ante el hecho de que el análisis de datos haya tenido siquiera un papel en este asunto.

En definitiva, el análisis de datos en el mundo del fútbol ha venido para quedarse. Los equipos que sean capaces de contar con los mejores profesionales en este área serán también los que conseguirán fichar a mejores jugadores, mejorar el rendimiento de las plantillas durante la temporada o analizar de forma más efectiva los puntos débiles propios y rivales. Las Palmas debe seguir apostando por ello con ambición y profesionalidad, entendiendo su utilidad, limitaciones y evitando utilizarlo como parapeto cuando las cosas vengan mal dadas. Si la destitución de Mel fue la decisión correcta o no lo dirá el tiempo. Cuando termine la temporada analizaremos, preferiblemente desde la Plaza de La Victoria, cuál ha sido el rendimiento de la plantilla y de la secretaría técnica en su conjunto. Con datos, por supuesto.

Si te ha interesado este artículo, en Twitter puedes encontrar a grandes profesionales de este sector: @Vdot_Spain, @R_by_Ryo, @susanaferreras, @jcperez_ y otros tantos de los que seguro podrás aprender tanto como yo lo he hecho.

por Jorge López
Data Scientist.
Con experiencia en empresas como Ryanair, Boston Consulting Group, Kernel Analytics o NTT Data Spain.
https://www.jorgelopezperez.com/