SPI: Una guía para entenderlo

Nate Silver

4 de sep, 2009, 17:39 ET

Objetivo
El rating SPI está diseñado para aportar la mejor representación objetiva posible del nivel general de habilidad de un equipo actual. En particular, los ratings SPI tienen por objeto la predicción futura: Ellos miden el nivel de probabilidad de victoria posible de un equipo si éste participase en un choque competitivo al día siguiente. Este concepto difiere en algo de otros sistemas de ratings que son retrospectivos o que miran hacia atrás. Los ratings SPI no intentan recompensar o castigar a equipos basándose en los resultados pasados, sino que tratan de predecir qué equipos tendrán más éxito en el futuro.

El desafío de preparar un sistema de ratings internacional de fútbol es que hay relativamente pocos datos confiables en los cuales basarse, en comparación con otros deportes. Si un equipo internacional no participa de competencias grandes, tales como una Copa Mundial, puede apenas jugar un puñado de juegos significativos cada año. Comparemos eso con los 162 partidos por temporada que tiene el béisbol, los 82 juegos de básquet de cada temporada, o las temporadas de 16 juegos del football americano. Muchos de estos juegos, además, pueden ser ante equipos de calidad inferior, o pueden tener alineaciones marginales porque muchos de sus jugadores están atados a las competiciones de sus clubes. Por esa razón, es importante ser un poco más expansivo sobre la cantidad de datos que usamos en un rating de fútbol. Cosas como el margen de victoria y la ventaja de local, que son ignorados por otros sistemas de ratings, juegan un rol bastante mayor en el SPI. Y otra cosa que distingue a SPI es que los ratings mezclan los datos de la competencia de los clubes con los de los partidos internacionales, proveyendo un reporte más robusto del nivel de talento de un club en particular.

El fútbol es un deporte rico, maravilloso e impredecible, y sería una lástima si hubiese un solo número que dijese todo lo que nosotros necesitásemos saber sobre un equipo de fútbol. SPI no hace eso. Simplemente refleja la relativamente limitada información estadística disponible en el fútbol internacional, y lo hace de un modo que es tan justo y certero como sea posible. En otras palabras, SPI está diseñado para servir como guía general, como punto de partida de debates sobre la calidad de un equipo. No tiene por intención ser un punto de conclusión o una manera de dirimir dudas o discusiones.

Enfoque Básico
SPI procede a partir de cuatro pasos esenciales:
1. Calcula coeficientes competitivos de todos los partidos en la base de datos
2. Deriva ratings basados en partidos para todos los clubes y equipos internacionales
3. Deriva ratings basados en jugadores para todos los partidos para los cuales se encuentran disponibles los datos detallados.
4. Combina datos de equipos y jugadores en un rating compuesto basado en planteles actuales, y lo usa para predecir resultados futuros.

Cada paso es descripto en detalle más abajo.

1er Paso - Coeficientes de Competitividad
Una de las dificultades en evaluar el fútbol internacional es que la seriedad con la que un equipo trata un partido en particular puede variar significativamente entre uno y otro partido. Es como si en algunas ocasiones los Yankees de Nueva York fuesen los Yankees de Nueva York, y en otras, los Yankees hayan sido reemplazados por su equipo afiliado de Triple-A, los Columbus Clippers. Este último tipo de encuentro seguramente no aportaría mucha información sobre cuán fuerte son realmente los New York Yankees si fuesen a jugar ante los Medias Rojas de Boston en un juego crítico ese mismo día.

El enfoque de SPI ante este problema es calcular un coeficiente de competitividad para cada partido. El objetivo del coeficiente de competitividad es medir cuánto de la alineación "A" (el plantel que el equipo usaría si un encuentro de Copa Mundial fuese a jugarse ese día) usa cada equipo en cada partido.

El coeficiente de competitividad es determinado evaluando a cada jugador de esa alineación en cada día en particular, y ver cuán seguido juegan en otras competencias que sepamos que son importantes, tales como la Copa Mundial, el Campeonato Europeo y la Copa Confederaciones. Cada jugador en la alineación recibe un puntaje entre 0 y 1 dependiendo de la fracción de posibles minutos que hayan jugado en dichos encuentros. Un "factor variable" es usado para tomar en cuenta el hecho de que, por ejemplo, algunos jugadores pueden ser nuevos en la alineación porque han estado lesionados, o porque son jugadores jóvenes que recientemente han sido elevados de nivel como para pertenecer al equipo "A". Esencialmente, si un jugador ha jugado la mitad de los minutos posibles en competencias importantes casi a tiempo hasta esa fecha, recibirán el crédito completo, pero los números son calculados proporcionalmente hacia abajo de ahí en más.

Estos ratings preliminares son promediados para cada miembro de la alineación de un equipo ese día, dependiendo del número de minutos que jugó cada jugador. Estos son conocidos como coeficientes de competitividad del equipo (TCC). Los coeficientes de competitividad del equipo son luego multiplicados y luego vueltos a multiplicar por una constante, que arroja el coeficiente de competitividad combinado o CCC.
CCC = TCC (Equipo Local) x TCC (Equipo Visitante) x 1.27

Entonces, por ejemplo, si Brasil juega ante Colombia en un partido amistoso, y Brasil tiene un TCC de .25 (indicando que alrededor de una cuarta parte de sus jugadores vienen de la alineación "A") y Colombia tiene uno de .67, el CCC de ese juego será:
CCC = .25 x .67 x 1.27
CCC = .213

Este procedimiento multiplicativo asegura que ambos equipos deberán tomarse ese juego en serio antes de que reciba un peso particularmente alto. Si, como en el ejemplo de arriba, Colombia toma ese partido bastante en serio pero Brasil no lo hace, entonces el juego no recibirá un CCC alto.

Los TCCs están limitados por un mínimo de .10. Esto significa que el CCC mínimo es:
.10 x .10 x 1.27 = 0.0127

Por contraste, el CC máximo (el que es usado automáticamente, por ejemplo, para todos los partidos de Copa Mundial, es de 1.27. Esto significa que potencialmente hay una diferencia cien veces mayor entre el peso que SPI le da a un partido de Copa Mundial y el que le otorga a un partido amistoso o de competencia internacional menor entre equipos que no son tomados muy en serio.

En algunos casos, los detalles de la alineación de cada equipo no están disponibles para un partido en particular. En esos casos (y solamente en esos casos) un CCC por default es usado dependiendo del tipo de competición. El CCC por defecto está basado en un análisis empírico de la composición del plantel de esa competición en juegos para los cuales tenemos acceso a los listados de jugadores. El CCC por default es el siguiente:
Copa Mundial 1.27
Copa Mundial - Eliminatoria Interconfederaciones 1.09
Campeonato europeo 1.00
Clasificatoria para Copa Mundial - Europa 0.82
Copa Confederaciones 0.79
Clasificatoria para Copa Mundial - Sudamérica 0.68
Clasificatoria para Copa Mundial - África 0.68
Clasificatoria para Copa Mundial - Asia 0.68
Copa Africana de Naciones 0.57
Clasificatoria para Copa Mundial - Oceanía 0.57
Clasificatoria para Copa Mundial - CONCACAF 0.55
Clasificatoria - Campeonato Europeo 0.47
Copa Asiática AFC 0.46
Copa de Naciones de Oceanía 0.46
Clasificatoria - Copa Africana de Naciones a 0.32
Copa América 0.25
Copa de Oro 0.24
Clasificatoria - Copa de Oro 0.24
Clasificatoria - Copa Asiática AFC 0.24
Partido Amistoso 0.24

En relación a los Rankings de la FIFA Rankings, el SPI tiende a clasificar más alto que la Copa Mundial, el Campeonato Europeo, la Copa Confederaciones, y la mayoría de las clasificatorias para la Copa Mundial (especialmente en continentes como Europa y Sudamérica, donde es difícil clasificar; y mucho menos para continentes como Norteamérica, donde la clasificatoria es más relajada). Otras competiciones (particularmente campeonatos continentales menores como la Copa de Oro) pesan menos que las de la FIFA, y lo mismo sucede con los amistosos.

Sin embargo, hay que tener en mente que estos ratings por default son solamente eso, y que son desechados cada vez que las alineaciones específicas están disponibles. Por ejemplo, si un partido eliminatorio de la Copa América es tratado seriamente por ambos equipos, recibirá un peso mayor, aún cuando por default la Copa América recibe un peso menor porque ambos equipos a menudo ponen en el terreno de juego sus alineaciones "A".

2do paso - Ratings basados en partidos
El objetivo de los ratings basados en partidos es desarrollar un rating ofensivo (OFF) y defensivo (DEF) para cualquiera de los equipos dados en cualquier momento en el tiempo, que a su turno refleja las habilidades anotadoras y capacidad de prevenir goles, respectivamente. Para ver el rating ofensivo y defensivo de cada equipo, sólo debes clickear sobre el nombre de cada equipo en la página principal del SPI.

El primer paso para calcular los ratings basados en partidos es evaluar juegos individuales basándonos en el número de goles que un equipo anota y permite, relativos a la calidad de la competición. Específicamente, llegamos a esa figura conocida como Goles Anotados Ajustados (AGS, por sus siglas en inglés) y Goles Permitidos Ajustados (AGA, por sus siglas en inglés) total para cada equipo en cada partido. Esto se calcula de la siguiente manera...
AGS = ((GS-OPP_DEF)/( MAX(0.25,OPP_DEF*0.424+0.548))*(AVG_BASE*0.424+0.548)+AVG_BASE
AGA = ((GA-OPP_OFF)/( MAX(0.25,OPP_OFF*0.424+0.548))*(AVG_BASE*0.424+0.548)+AVG_BASE

...en cuanto GS y GA es el número de goles que un equipo anota y permite en un juego en particular, OPP_OFF y OPP_DEF son los ratings defensivos y ofensivos del oponente, y AVG_BASE es una constante que indica el número promedio de goles anotados por juego en una competición internacional (alrededor de 1.37 goles por equipo por partido).

Las cifras de Goles Anotados Ajustados y Goles Permitidos Ajustados pueden diferir bastante substancialmente de las figuras crudas, dependiendo de la calidad de la competición. Por ejemplo, en abril de 2001, Australia anotó una victoria por 31-0 sobre Samoa (EEUU), un equipo que rutinariamente permite goles en números de dos cifras y que casi nunca anota. El AGS y AGA de Australia para ese partido fue de 3.92 y 1.36, respectivamente, lo cual significa que son tratados como no mucho más que una victoria por 4-1. En contraste, cuando Paraguay derrotó a Brasil 2-1 el 14 de julio de 2004, recibió un AGS y un AGA de 3.62 y 0.29. Esta victoria por un gol, por lo tanto, es tratada como el equivalente a una victoria por 3-0 ó 4-0.

Un ajuste adicional debe realizarse para la ventaja de local, que vale alrededor de 0.57 goles en el fútbol internacional (esto es muy significativo, porque la ventaja de local vale 2-3 veces más en el fútbol internacional que en la NFL). Si un partido es disputado en un sitio neutral, la penalidad por ventaja de local o bono por visitante se divide de manera pareja entre los dos clubes. Los goles anotados y goles permitidos también son ajustados según lo que dure el juego. Un equipo que gana por penales es considerado como si hubiese anotado medio (0.5) gol adicional.

Una característica del AGS y el AGA es que un equipo puede terminar teniendo una puntuación positiva aún si hubiese perdido el partido (esto es, si su AGS para ese partido fuese más alto que su AGA), una puntuación negativa aún de haber ganado el partido. Por ejemplo, si un equipo pierde por 3-2 ante Brasil o España, usualmente terminará con un rating positivo neto por ese partido, porque la mayoría de los demás equipos hubiesen sido derrotados mucho más aplastantemente que 3-2 como visitantes ante semejantes oponentes. Por el contrario, si ganan como local por 2-1 ante San Marino, generalmente perderán algo de crédito, porque la mayor parte de los equipos deberían ser capaces de lograr una victoria mucho más contundente.

Tengan en mente que el objetivo de SPI es predecir. Si un equipo ha derrotado a San Marino apenas por un solo gol, ellos lograrán una victoria en la columna de posiciones de todos modos. Pero según hemos visto, los goles anotado y permitidos, cuando son ajustados de esta manera, son un mucho mejor factor de predicción de resultados futuros que las victorias y derrotas por sí solas. Un equipo que derrota a San Marino por 2-1 jugando de local seguramente tendrá muchos problemas futuros a menos que mejore su forma en los partidos subsiguientes. Por otra parte, una derrota de 3-2 de visitante ante Brasil puede realmente considerarse una "victoria moral" y hasta alentadora para el futuro del equipo en la competencia internacional.

Una vez que el AGS y AGA son calculados para cada partido, estos son combinados por un promedio. El promedio es logrado basándose en dos factores: el coeficiente de competitividad combinado (que describimos en la Parte 1) y el factor de actuación reciente.
Este factor le da menos peso a los partidos que fueron jugados hace mucho tiempo. Esto es usado para establecer un punto de quiebre en un momento determinado y calcular el factor de actuación reciente de manera linear de ahí en más. Por ejemplo, si el punto de corte es 4 años, eso significa que un partido jugado exactamente hace 4 años no tendrá peso, un partido disputado hace tres años tendrá el peso de un cuarto, un partido jugado hace dos años recibirá medio crédito, y un partido disputado ayer recibirá casi todo el crédito total. Además, se dará un bono del 25 por ciento a juegos disputados dentro de los últimos 100 días para reflejar la forma más reciente de un equipo.

El punto de quiebre depende, empero, de la frecuencia con la cual un equipo juega partidos competitivos. En el caso de equipos como España que disputan partidos competitivos frecuentemente, el punto de quiebre puede ser de 3.5 años (menos que los 3 años usados para los rankings FIFA). Para equipos que juegan menos frecuentemente y para los cuales hay menos datos disponibles (digamos, Nueva Zelandia) el punto de quiebre puede estar considerablemente más atrás en el tiempo (SPI puede buscar los últimos 8 años o más). Con esto se intenta mantener un balance entre la relativa falta de partidos competitivos en el fútbol internacional en comparación con otros deportes, y el hecho de que los juegos que están tan atrás en el tiempo son claramente menos indicativos del nivel de talento actual de ese equipo.
Una vez que hemos calculado este factor de actuación reciente, además del coeficiente de competitividad, podemos 'enrollar' (tomar un promedio) de las cifras de AGS y AGA que un equipo recibe en cada encuentro para producir ratings generales de OFF y DEF. Estos ratings pueden ser calculados en relación a la fecha actual del partido, o relativos a cualquier otro punto en el tiempo.

Hay un problema significativo, empero, que tenemos que de algún modo rever. Los ratings OFF y DEF de un equipo están basados en gran parte en sus Goles Anotados Ajustados (AGS) y Goles Permitidos Ajustados (AGA) para cada partido individual. Pero AGS y AGA son determinados en parte al referenciar los factores OFF y DEF de los oponentes de un equipo.

Para aclarar bien esta aparente paradoja en un lenguaje sencillo: supongamos que México derrota a los Estados Unidos por 2-1 en un partido de clasificatoria. ¿Cuánto crédito debería recibir México por esa victoria? Depende de lo bueno que sea Estados Unidos. Pero ¿qué tan bueno es el equipo de los Estados Unidos? Depende de lo buenos que hayan sido sus oponentes. Y ¿qué tan buenos fueron los oponentes de los Estados Unidos? Depende de lo bueno que hayan sido los oponentes de sus oponentes. Este sinfín puede continuar indefinidamente. En términos matemáticos, el problema es que estamos tratando de resolver las variables dependientes e independientes en un solo acto.

Afortunadamente hay un atajo: un procedimiento conocido como iteración. Éste es el mismo procedimiento usado para hacer la mayoría de los rankings populares de football universitario y básquet universitario. Comenzamos con un estimado inicial de la calidad del oponente (por ejemplo, cuántos goles ha anotado y ha permitido el oponente en los partidos que aparecen en la base de datos). Luego este estimado es refinado continuamente (selo hace más y más certero) cada vez que pasamos por otra iteración o "rulo" e incorporamos más información. Luego de alrededor de 20-30 iteraciones, este estimado se hace estable para abajo por un valor de varios puntos decimales, y podemos calcular factores OFF y DEF de cualquier club en cualquier fecha particular.

Noten que OFF y DEF tienen una interpretación relativamente específica. OFF refleja el número de goles que esperaríamos que un equipo anote ante un oponente "promedio" ("promedio" en este contexto es un equipo que clasifica entre los 50s ó 60s a nivel mundial, un equipo como Canadá o Lituania) y el DEF refleja el número de goles que esperaríamos que ellos concedan ante un oponente así.

***
Además de calcular ratings basados en juegos para clubes internacionales, también debemos hacer eso para equipos de clubes como procedimiento previo al 3er paso. Este proceso opera de manera idéntica a los ratings de equipos internacionales descriptos más arriba, con un par de excepciones menores. Primero, se usa una constante para la ventaja como local, porque las distancias de viaje son cortas en competencias de clubes y la ventaja de local ha sido históricamente un diferenciador (a pesar de que todavía se lo clasifica como más importante en relación a otros deportes). Segundo, no hay "coeficiente de competitividad", sino que todos los partidos son vistos como de la misma importancia, con la excepción de que los partidos de la UEFA Champions' League reciben un bono del 50 por ciento. Tercero, como la competencia de clubes, a diferencia de la competencia internacional, tiene "temporadas" claramente demarcadas que tienden a ser asociadas con cambios de plantel relativamente profundos, se aplica una pena adicional, equivalente a seis meses adicionales de pausa, por el salto entre cada temporada cuando se computa el factor de actuación reciente.

Es también necesario desarrollar un factor de ajuste para estos ratings de equipo y club, porque el nivel promedio de juego en las "Cuatro Grandes" ligas y la UEFA Champions League (las competiciones usadas en nuestros programas) son considerablemente mayores que las que están entre dos equipos internacionales de calidad promedio. El factor de ajuste fue calculado basándose en comparaciones de los ratings del nivel de juego (ver 3er Paso) de jugadores en partidos internacionales y de clubes y asegurándose de que, en promedio, un jugador recibirá aproximadamente el mismo rating cuando juegue para su equipo que cuando lo hace para su seleccionado. Algunas equivalencias entre clubes y equipos internacionales, basándonos en los resultados dados hasta julio de 2009, son las siguientes:
Brasil <> FC Barcelona
Alemania <> Chelsea
EEUU <> FC Porto
Suecia <> Tottenham Hotspur
Bolivia <> Sunderland
Tanzania <> Derby County

3er Paso - Ratings basados en jugadores
El OFF y DEF que obtuvimos para cada club en el 2do paso es solamente medio paso del SPI. La otra mitad son los ratings basados en jugadores, un reporte de la calidad de jugadores particulares en la alineación de un equipo internacional basándonos en su actuación tanto en su club como en competencia internacional.

Las ligas de clubes usadas para los ratings basados en jugadores son las "4 Grandes" ligas europeas: Inglaterra, España, Italia y Alemania, además de la UEFA Champions' League. Estas ligas tienen a más de 90 de los mejores 100 jugadores del mundo, según
la revista y sitio web especializado FourFourTwo. Debemos notar, empero, que la mera presencia de los jugadores de un equipo en alguna de las 4 Grandes ligas no les da un crédito automático. En lugar de eso, su seleccionado nacional puede ganar o perder crédito basándose en la actuación de ese jugador para su equipo. Los ratings están diseñados cuidadosamente para que un equipo así no sea penalizado (ni recompensado) si sus jugadores participan en ligas de clubes que no estén entre las "4 Grandes".

Los ratings basados en jugadores son calculados evaluando partidos individuales para los cuales tenemos datos detallados. El punto de inicio son las cifras de Goles Anotados Ajustados (AGS) y Goles Permitidos Ajustados (AGA) que hemos calculado para un juego en particular. Del AGD, restamos el promedio de goles anotados, El AGA se resta del promedio de goles permitidos. Eso resulta en en rating de apreciación más-menos para cada partido.

Por ejemplo, en su partido de cuartos de final de la Copa Mundial 2002 ante Inglaterra, en el que se impusieron por 2-1, el AGS de Brasil es de 3.81 y su AGA es de 0.29. Si quitamos el promedio internacional de 1.37 goles anotados por partido, terminamos con un rating OFF para ese partido de +2.44. Si restamos el AGA de los goles concedidos, terminamos con un rating DEF de +1.08.

El propósito clave del algoritmo de ratings de un jugador, entonces, es tomar el rating +/- de un equipo en un partido en particular y asignarlo a sus jugadores individuales. Esto es, cada jugador recibirá su propio rating OFF y DEFF para cada partido.

El primer y principal requerimiento es que la suma de los ratings de todos los jugadores individuales en un equipo debe ser igual al rating de su equipo para ese partido. El fútbol no es un deporte de equipos en el que se puedan asumir cosas fácilmente. Por eso, en este partido ante Inglaterra, el rating OFF de los 11 titulares de Brasil (además de los suplentes) debe totalizar +2.44, y sus ratings DEF deben totalizar +1.08. Esta es una propiedad inviolable de nuestros ratings.

Ubicar créditos y culpas en jugadores individuales es un procedimiento de muchos pasos, pero los componentes básicos son los siguientes:
* Crédito primario (directo) por cada gol anotado. Si un jugador anota, entonces vamos a darle algo de crédito por eso. Específicamente, le asignamos la mitad (50%) del crédito por ese gol. Se asignará menos crédito (solamente 20% del total) a un jugador que anote de penal. Si hay goles en contra, también le depositamos la cultpa de eso a los jugadores respectivos en ese punto.
* Crédito secundario (indirecto) por cada gol anotado (y permitido). El otro 50% del crédito por anotar es asignado a los compañeros de equipo que estuvieron en el campo de juego con ese jugador en el momento de anotar. Esto es equivalente a una tasa más-menos en un deporte como el hockey. Los delanteros y mediocampistas reciben proporcionalmente más crédito por asistir con las anotaciones que los jugadores defensivos. Por el contrario, cuando un equipo permite un gol, los jugadores que están en el campo de juego en el momento en que el gol es concedido reciben un golpe en sus ratings defensivos. El portero, claro, recibe la penalidad más substancial, seguido por los defensores, mediocampistas, y delanteros.
* Sanciones. No hay sorpresas aquí: recibir una tarjeta roja pone a su club en una enorme desventaja. De hecho, hemos encontrado que cuando un jugador es expulsado, el promedio de anotaciones de su equipo decrece alrededor de 0.3 goles por cada 90 minutos, e incrementa las anotaciones del otro equipo por 0.5 goles cada 90 minutos. Por lo tanto, un jugador recibe una pena sustancial por ser expulsado, reflejada tanto en los rating OFF como los DEF. La magnitud de la penalidad depende en parte en cuándo suceda esa sanción. Ser expulsado en el primer minuto es mucho más dañino que ser expulsado en el minuto 88. Un jugador también es castigado por advertencias, pero la penalidad es mucho menos sustancial.

* Ratings residuales. Así como le damos crédito a los jugadores por anotar, también los penalizamos por no anotar. Esencialmente, le asignamos a un jugador una muy pequeña penalidad en su rating OFF por cada minuto en el que está en el campo de juego sin que su equipo anote, y un muy pequeño monto de crédito en su rating DEF por cada minuto en el que está en el campo cuando sus oponentes no anotan. Si un equipo termina con el marcador en cero, por ejemplo, el rating OFF para los delanteros y mediocampistas será sustancialmente negativo debido a este rating residual. Opuestamente, ésta es la causa principal por la cual los defensores y particularmente los porteros (y en menor extensión, los mediocampistas) reciben crédito por evitar goles.

Es de notar que el rating de un individuo puede ser negativo para un partido aún cuando el rating del equipo es positivo, o viceversa. Por ejemplo, si un jugador es expulsado en el minuto 10, su rating casi seguramente será negativo aún si su equipo gana por 2-0 (le damos, sin embargo, algo de crédito adicional a sus compañeros de equipo por manejar un resultado tan bueno mientras están con un hombre menos). Otra situación común es que un equipo puede ganar un partido de muchas anotaciones, digamos 4-3. En este caso, el rating general para los delanteros y mediocampistas estará en territorio positivo para ese partido, pero los defensores y porteros generalmente no recibirán ratings altos.

Aquí hay un ejemplo de cómo los ratings fueron distribuidos para el partido entre Brasil e Inglaterra que aquí se describe.

Rivaldo y Ronaldinho, como anotadores en este partido, naturalmente reciben los mejores ratings. A pesar de que ordinariamente un mediocampista que anota un gol será clasificado un poco más alto que un delantero que hace eso mismo, el rating de Ronaldinho es un poco peor que el de Rivaldo porque él también recibió una amonestación. Los mediocampistas no anotadores, recibiendo crédito por su sólido juego a dos puntas, siguen en la lista, apenas un poco detrás de los defensores. Pero todos están en territorio positivo, excepto por el suplente Edilson que logra un rating relativamente pobre debido a que los dos goles de Brasil fueron anotados antes de que él entrase al campo de juego.

Hay que notar que los ratings OFF y DEF quedan en +2.44 y +1.08, respectivamente, que es el rating general de Brasil para este partido. Como los ratings de jugadores individuales salen del rating del equipo para este partido, una implicancia de esto es que un jugador recibirá más crédito por un gol anotado ante un oponente más difícil, un portero recibirá mayor crédito por un arco sin goles ante un oponente más duro, y así sucesivamente.

Al realizar este procedimiento en todos los partidos de la base de datos, podemos crear un rating general para un jugador, que puede ser expresado en acumulativo o bien (de manera más útil para nuestros propósitos) en base a lapsos de 90 minutos, en lo que llamamos OFF90 y DEF90. (Más técnicamente, en base a 96 minutos, porque asumimos que hay tres minutos de descuento al final de cada tiempo). Este proceso emplea un promedio muy similar al que tiene lugar en el 2do Paso, en el cual los juegos son sopesados en base a un coeficiente de competitividad y un factor de actuación reciente. Tanto los partidos internacionales como los de clubes son incluidos en el promedio. Los coeficientes de competitividad son los mismos que se describen en el 2do Paso para los partidos internacionales, y quedan fijos en .36 para partidos de clubes (la excepción es .54 para juegos de la Champions' League). El factor de actuación reciente usa un punto de corte de cuatro años, lo cual significa que un partido jugado hace 4 años no recibirá peso alguno, un partido disputado hace dos años tendrá la mitad del peso, y un partido de hace apenas un año atrás recibirá tres cuartos de su peso. Un partido disputado ayer tendrá casi el peso completo. Como resultado de esto, tenemos un rating OFF90 y DEF90 para cada jugador en la base de datos.

Los ratings OFF90 y DEF90 para jugadores individuales son diseñados para que puedan ser recombinados y proveer otro reporte de las fortalezas de un club en particular.

Por ejemplo, aquí les mostramos los ratings combinados OFF90 y DEF90 de una alineación recientemente usada por España en su partido ante Estonia.

Cualquier grupo de ratings puede ser combinado de esta manera. En teoría, pueden ser incluso usados para medir el impacto de jugadores en particular. Por ejemplo, si David Villa (rating OFF90 de +0.38) se lesionase y fuese reemplazado por Juan Manuel Mata en la alineación (rating OFF90 de +0.12, que no se muestra aquí), nosotros estimaríamos que esto reduciría las anotaciones de España por alrededor de 0.26 goles por juego, la diferencia que existe entre los ratings de Villa y Mata.

Sin embargo, lo que más nos interesa es buscar la calidad de la alineación "A" de un equipo, que es la que esperamos ver en la Copa Mundial y otras competencias mayores A fin de determinar esta alineación, nos fijamos en qué jugadores han estado jugando en partidos y competencias de alta clasificación, usando coeficientes de competitividad a lo largo de un proceso paralelo al usado en el 1er Paso. Si un jugador comparte su puesto en la alineación titular, o si es frecuentemente reemplazado durante el juego, esa posición será dividida entre ese jugador y los jugadores que lo relevan. Una vez que esa alineación sea determinada, podremos calcular ratings OFF y DEF basados en jugadores de cada seleccionado nacional.

4to paso - Ratings Compuestos
El paso final consiste de hecho en dos sub-pasos. El primer sub-paso es razonablemente franco. Hasta ahora, hemos generado dos grupos de ratings OFF y DEF para cada seleccionado nacional: uno basado en los resultados a nivel de equipos en partidos internacionales (2do Paso) y el otro basado en la actuación de jugadores individuales tanto en la actuación de jugadores individuales tanto en partidos internacionales como de clubes (3er paso). Luego necesitamos ver cuánto énfasis es dado a cada uno de estos grupos de ratings.

Esto se determina al comparar dos cosas:
 El número de partidos internacionales competitivos que un equipo ha jugado recientemente.
 El número de minutos que la alineación "A" de este equipo ha jugado en competencias de clubes en las ligas de los 4 Grandes (además de la UEFA Champions' League).

Cuanto más datos tenemos del segundo tipo y menos datos tenemos del primer tipo, más peso se le pondrá a los ratings de los jugadores (3er Paso) en lugar del rating basado en partidos (2do Paso). Por ejemplo, un equipo como Inglaterra, para quienes virtualmente todos los jugadores regulares juegan en equipos de las 4 Grandes ligas pero que tienen un número limitado de partidos internacionales recientes debido a que el equipo no logró calificar para la Euro 2008, alrededor del 70 por ciento del peso es ubicado en ratings de jugadores. Para un equipo como Rusia, que juega partidos internacionales muy frecuentemente pero que tiene apenas unos pocos jugadores en las 4 Grandes ligas, solamente alrededor del 15 por ciento de los ratings combinados se basan en los números de cada jugador. Algunos equipos quizás no tengan a ninguno de sus jugadores participando en las 4 Grandes ligas o en la Champions' League. En todos los casos, el 100 por ciento del peso es ubicado en los ratings de partidos, y los ratings del nivel del jugador son irrelevantes. El esquema de compensaciones está diseñado de manera tal que para un típico partido internacional de gran envergadura, alrededor de la mitad del peso sea puesto en los ratings de partidos y la otra mitad en los ratings de jugadores, a pesar de que esta fracción puede variar substancialmente entre un club y otro.

Una vez que los ratings OFF y DEF han sido combinados en un rating compuesto, hay un último paso que consiste en crear un rating general, RATE, que tiene una escala entre 0 y 100 y refleja la fortaleza general de un equipo.

Una de las características de los ratings OFF y DEF que hemos diseñado es que pueden ser combinados para estimar las probabilidades de cada partido en particular entre dos equipos dados. Estos estimados de probabilidades fueron logrados usando algo denominado como modelo logit multinomial. Esencialmente, hemos retrocedido en el tiempo para ver qué pasó cuando dos equipos de un rating de cierta fortaleza se enfrentan uno ante otro. Por ejemplo, basándonos en sus ratings OFF y DEF actuales, esta fórmula estima que España derrotaría a los Estados Unidos el 61 por ciento de las veces en un terreno neutral, empataría el 27 por ciento del tiempo y perdería el 12 por ciento restante. Otro ejemplo: Alemania derrotaría a Suiza el 54 por ciento de las veces, empataría el 29 por ciento y perdería el 17 por ciento de las oportunidades.

A fin de calcular el RATE de un club en particular los hicimos jugar un torneo contra todos los demás equipos del mundo usando esta fórmula, y luego agregamos el porcentaje de puntos posibles (3 para una victoria, 1 para un empate) que cada equipo tendría que anotar en un torneo así. Veámoslo con un ejemplo: si el Equipo A jugase en ese torneo, nuestros ratings podrían predecir que ganarían alrededor del 88% de sus partidos (anotando 3 puntos), empatarían el 9% (anotando 1 punto) y perderían 3% (sin anotar). El rating general del Equipo A, entonces, sería...
(.88 x 3) + (.09 x 1) + (.3 x 0)
(1.00 x 3)

... que resulta en un .91, que nosotros expresamos como "91" sin usar el punto indicador de decimales.

Los ratings SPI van entre un mínimo teórico de 0 y un máximo teórico de 100. Un equipo con un rating de 100 seguramente derrotaría a todos los demás seleccionados nacionales, mientras que un equipo con un rating de 0 tendría la garantía de perder ante cualquier otro seleccionado nacional.

Como guía general, los siguientes términos pueden ser usados para describir seleccionados nacionales:
* 85+ élite
* 80-84 muy fuerte
* 75-79 fuerte
* 70-74 bueno
* 60-69 competitivo
* 50-59 marginal
* 25-49 débil
* 0-24 muy débil

A pesar de que RATE es la mejor medida general de la calidad de un equipo, tenemos que notar que la fórmula para predecir probabilidades de victoria no es linear. Por ejemplo, ante una competencia de élite (tal como lo serán la mayoría de los campos en Sudáfrica) la defensa (DEF) tiende a ser más importante que la ofensiva (OFF), y equipos con mejores ratings DEG son bastante más fuertes que lo que sugieren sus ratings. Opuestamente, ante una competencia débil, equipos con mejores ratings DEF tienen una probabilidad ligeramente mayor de ser sorprendidos que aquellos con mejores ratings OFF, y son ligeramente más débiles que lo sugerido por su RATE.

***
Nate Silver es probablemente el analista de estadísticas más importante de los Estados Unidos. Comenzó su carrera desarrollando algoritmos predictivos para béisbol y ha superado a todas las encuestadoras en el pronóstico de los resultados de las elecciones primarias y presidencias en EEUU. Contribuye regularmente con ESPN.com y con ESPN The Magazine y es autor del Baseball Prospectus.