¿Qué es Elo? Una explicación de sistema de puntuación que no solo se utiliza en el ajedrez

¿Qué es una calificación Elo?

El sistema de clasificación Elo es un método para calcular los niveles de habilidad relativos de los jugadores en juegos de dos jugadores como el ajedrez y el Go. «Elo» se escribe a menudo en letras mayúsculas (ELO), pero no es un acrónimo.

Es el apellido del creador del sistema, Arpad Elo (1903-1992), un profesor de física estadounidense nacido en Hungría. Elo se inventó originalmente como un sistema de clasificación de ajedrez mejorado, aunque se usa en muchos juegos hoy en día. También se utiliza como un sistema de clasificación para el juego competitivo de varios jugadores en varios juegos de computadora, y se ha adaptado a los deportes de equipo, incluido el fútbol internacional, el fútbol americano universitario y el baloncesto y las Grandes Ligas de Béisbol.

Arpad Elo fue un jugador de ajedrez de nivel maestro y un participante activo en la Federación de Ajedrez de los Estados Unidos (USCF) desde su fundación en 1939. La USCF usó un sistema de clasificación numérico, ideado por Kenneth Harkness, para permitir a los miembros rastrear su progreso individual en términos distintos a las victorias y derrotas en torneos. El sistema Harkness era razonablemente justo, pero en algunas circunstancias dio lugar a calificaciones que muchos observadores consideraron inexactas. En nombre de la USCF, Elo ideó un nuevo sistema con una base más estadística.

De estimación estadística a recompensas competitivas

El sistema de Elo sustituyó la estimación estadística por un sistema de recompensas competitivas. Los sistemas de clasificación de muchos deportes otorgan puntos de acuerdo con evaluaciones subjetivas de la «grandeza» de ciertos logros. Por ejemplo, ganar un torneo de golf importante puede valer cinco veces más puntos elegidos semi-arbitrariamente que ganar un torneo menor. Un esfuerzo estadístico, por el contrario, utiliza un modelo que relaciona los resultados del juego con las variables subyacentes que representan la capacidad de cada jugador.

Los competidores aún pueden sentir que están siendo recompensados y castigados por los buenos y malos resultados, pero la afirmación de un sistema estadístico es que mide indirectamente alguna verdad oculta.

El sistema Elo se adoptó en los juegos competitivos como una forma justa de emparejar a los jugadores. Cada juego tiene su propio sistema y tiene en cuenta diferentes métricas. Estos sistemas de clasificación se inspiraron en el sistema de clasificación Elo desarrollado por el profesor de física húngaro-estadounidense Arpad Elo.

El profesor Elo jugaba al ajedrez a un nivel competitivo con la Federación de Ajedrez de los Estados Unidos (USCF), el organismo rector de la competencia de ajedrez en el país fundado en 1939. En ese momento, la USCF usaba el Harkness Rating System desarrollado por Kenneth Harkness.

El Harkness Rating System era sencillo y solo tenía en cuenta las victorias y derrotas de un jugador. Era una forma simple pero ineficaz de rastrear el nivel de los jugadores. El profesor Elo detectó las fallas en el antiguo sistema y utilizó sus hallazgos para desarrollar un nuevo sistema.

El sistema de clasificación Elo utilizó las estadísticas del jugador y el rendimiento general. Según los datos, si un jugador gana más juegos de lo esperado, su calificación aumenta. Si pierden muchos partidos, su calificación baja.

La USCF implementó el sistema Elo en 1960 y la Federación Mundial de Ajedrez lo adoptó en 1970.

¿Qué otros juegos usan el método Elo? ¿…y cómo lo usan?

Además del ajedrez, el Golf, el Beisbol, entre otros, existe muchos juegos online que también utilizan el sistema Elo para medir sus clasificación y generar rankings en sus distintas plataformas.

Cada juego competitivo utiliza una versión modificada del sistema Elo. Los diferentes juegos toman en consideración diferentes métricas.

PUBG es uno de los pocos juegos que usa el sistema Elo original. Ganar aumenta la calificación y perder la disminuye. El cambio en las calificaciones no es abrupto, por lo que perder un juego no es un factor determinante. PUBG tiene sistemas de clasificación separados para cada modo de juego.

CS: GO requiere más datos para determinar la clasificación de los jugadores. El juego cuenta las rondas ganadas en lugar del resultado general del partido. También toma en consideración la clasificación de compañeros y oponentes. Un jugador Gold Nova III con compañeros de equipo Gold Nova I, por ejemplo, probablemente obtenga una mejor clasificación. Le dice al juego que el jugador mejor clasificado lleva al resto del equipo.

League of Legends usó el sistema Elo clásico hasta la tercera temporada, cuando el juego implementó su propio sistema. Cada jugador, según su desempeño contra oponentes de diferentes rangos, victorias y derrotas, obtiene una calificación de emparejamiento o MMR. Este número no es visible para los jugadores, pero determina cuántos puntos de liga ganan o pierden según el resultado. Cada modo de juego tiene su propio sistema de clasificación.

Calificaciones de inflación y deflación

El objetivo principal de las clasificaciones Elo es predecir con precisión los resultados del juego entre competidores contemporáneos, y las clasificaciones FIDE realizan esta tarea relativamente bien. Un objetivo secundario y más ambicioso es usar clasificaciones para comparar jugadores entre diferentes épocas.

Sería conveniente que una calificación FIDE de 2500 significara lo mismo en 2005 que en 1975. Si las calificaciones sufren de inflación, una calificación moderna de 2500 significa menos de una calificación histórica de 2500, mientras que si las calificaciones sufren de inflación deflación, lo contrario será cierto. Desafortunadamente, incluso entre las personas a las que les gustaría que las calificaciones de diferentes épocas «significaran lo mismo», las intuiciones difieren marcadamente en cuanto a si una calificación dada debe representar una habilidad absoluta fija o un desempeño relativo fijo. Aquellos que creen en la habilidad absoluta (incluida la FIDE) preferirían que las calificaciones modernas sean más altas en promedio que las calificaciones históricas, si los grandes maestros de hoy en día juegan mejor al ajedrez.

Según este estándar, el sistema de clasificación está funcionando perfectamente si un jugador moderno con una calificación de 2500 tuviera un cincuenta por ciento de posibilidades de vencer a un jugador con una calificación de 2500 de otra época, si fuera posible para ellos jugar. Se cree ampliamente que el viaje en el tiempo es imposible, pero el advenimiento de las computadoras de ajedrez fuertes permite una evaluación un tanto objetiva de la habilidad absoluta de juego de los maestros del ajedrez del pasado, basada en sus partidas grabadas.

Aquellos que creen en el desempeño relativo preferirían que la calificación media (o algún otro rango de referencia) de todas las épocas fuera la misma. Según un estándar de rendimiento relativo, el sistema de clasificación funciona perfectamente si un jugador del vigésimo percentil de la clasificación mundial tiene la misma clasificación que solía tener un jugador del vigésimo percentil.

Las calificaciones deben indicar aproximadamente dónde se encuentra un jugador en la jerarquía de ajedrez de su propia época. La calificación promedio de la FIDE de los mejores jugadores ha aumentado constantemente durante los últimos veinte años, lo que es inflación (y por lo tanto indeseable) desde la perspectiva del desempeño relativo. Sin embargo, es al menos plausible que las calificaciones de la FIDE no se estén inflando en términos de habilidad absoluta. Quizás los jugadores modernos son mejores que sus predecesores debido a un mayor conocimiento de las aperturas y debido al entrenamiento táctico asistido por computadora.

En cualquier caso, ambos bandos pueden estar de acuerdo en que sería indeseable que la calificación promedio de los jugadores disminuya en absoluto, o que aumente más rápido de lo que se puede atribuir razonablemente al aumento general de la habilidad. Ambos campos llamarían al primero deflación y al segundo inflación. La inflación y la deflación rápidas no solo hacen imposible la comparación entre diferentes épocas, sino que tienden a introducir inexactitudes entre contemporáneos más activos y menos activos.

Intentos para evitar la inflación y deflación

El intento más sencillo de evitar la inflación / deflación de calificación es hacer que cada juego termine en una transacción igual de puntos de calificación. Si el ganador obtiene N puntos de calificación, el perdedor debe bajar N puntos de calificación. La intención es mantener constante la calificación promedio, evitando que los puntos entren o salgan del sistema. Desafortunadamente, este enfoque simple generalmente da como resultado una deflación de la calificación, como la USCF descubrió rápidamente.

Los puntos de clasificación ingresan al sistema cada vez que un jugador sin calificación previa obtiene una calificación inicial. Asimismo, los puntos de calificación abandonan el sistema cada vez que alguien se retira del juego. La mayoría de los jugadores son significativamente mejores al final de sus carreras que al principio, por lo que tienden a quitarle más puntos al sistema de los que aportaron y, como resultado, el sistema se desinfla. Para combatir la deflación, la mayoría de las implementaciones de calificaciones Elo tienen un mecanismo para inyectar puntos en el sistema.

La FIDE tiene dos mecanismos inflacionarios. Primero, las actuaciones por debajo de un «piso de calificaciones» no se registran, por lo que un jugador con verdadera habilidad por debajo del piso solo puede ser descalificado o sobrevalorado, nunca calificado correctamente. En segundo lugar, los jugadores establecidos y con calificaciones más altas tienen un factor K más bajo. No hay ninguna razón teórica por la que estos deberían proporcionar un equilibrio adecuado a un esquema deflacionario; quizás sobre-corrigen y resultan en una inflación neta más allá del aumento de la habilidad absoluta de la población que juega.

Por otro lado, no existe una alternativa obviamente superior. En particular, los sistemas de clasificación de juegos en línea parecen sufrir al menos tantos dolores de cabeza por inflación / deflación como la FIDE, a pesar de los mecanismos alternativos de estabilización. El rendimiento no se puede medir de forma absoluta; solo se puede inferir de victorias y derrotas. Por lo tanto, las calificaciones solo tienen significado en relación con otras calificaciones. Por lo tanto, tanto el promedio como la dispersión de calificaciones pueden elegirse arbitrariamente.