Por @Alvy — 17 de Octubre de 2025

¡Adivina quién no es tan bueno prediciendo el futuro! Estudio revela habilidad limitada de gigantes modelos de lenguaje.

La gente del Forecasting Research Institute ha dado a conocer los últimos resultados acerca de las capacidades predictivas del futuro de los modelos extensos de lenguaje (LLM) conocidos por todos popularmente como «inteligencias artificiales» (ChatGPT, Gemini, Claude, Grok…) Se llama Forecast Bench y en él se muestran cómo, aunque en algunos modelos los humanos quedan mejor que las máquinas, en «condiciones de torneo» están por encima del público general, aunque (por muy poco) todavía no de los mejores expertos, conocidos como superpredictores.

Para entender todo esto hace falta conocer cuál es el criterio de las puntuaciones y cómo se construyen los ránkings de resultados, así como algo acerca de lo que se entiende por superpredictores y por público general.

Cómo se clasifican los valores de los LLM

Torneo IAs / ForecastBenchLas puntuaciones que reciben los modelos o personas siguen la llamada puntuación de Brier que no es más que una fórmula para calcular la precisión de acierto en predicciones probabilísticas. Es equivalente al error cuadrático medio, sobre probabilidades de un conjunto de resultados mutuamente excluyentes (todas las opciones deben sumar 1). Cuanto más bajo, mejor.

En cuanto a cómo se construyen los ránkings, consiste en aplicar una batería de 500 preguntas cada dos semanas. En este examen, la mitad de las preguntas son acerca de series temporales (inflación, récords deportivos, disturbios en las ciudades, etc.) y la otra mitad sobre mercados de predicción (como Polymarket o la Rand Forecasting Initiative). Unos detalles extra son que las puntuaciones están ajustadas a la dificultad de las preguntas y que las nuevas versiones de los LLM esperan unas semanas en «cuarentena» antes de entrar en el ránking.

Preguntas del primer tipo podrían ser «¿Habrá más disturbios en Filipinas durante diciembre de 2025 que la media de los 360 días previos?» o «¿Habrá aumentado la tasa de inflación de la Reserva Federal en septiembre de 2026 respecto a septiembre de 2025?» Las preguntas del segundo tipo, los mercados de predicción, podrían ser «¿Pondrá un ser humano un pie en Marte antes de 2030?» o «¿Provocarán las hostilidades entre Pakistán e India al menos 100 bajas militares durante el verano?» Todas son cuestiones básicamente binarias que se pueden verificar.

En cuanto a la clasificación, se introducen dos valores «humanos» para comparar: los superpredictores, que son personas con una capacidad excepcional para predecir acontecimientos futuros de forma cuantitativa y verificable, y el público general, como valor promedio de control.

Los LLM todavía no superan a los mejores humanos

El resultado de las últimas ediciones es cuando menos curioso. En la versión básica de las pruebas (Baseline), los superpredictores y el público general superan a Gemini, GPT, Claude y demás, como hasta ahora.

Pero cuando se compite en modo torneo (Leaderboard), donde se permiten los modelos más refinados, herramientas especializadas, conjuntos de datos diferentes, etc. a elección de los participantes, la cosa cambia. La diferencia es de una puntuación de 0,081 (superpredictores) frente a 0,101 (GPT 4.5) que puede interpretarse como un 25% peor que la de los mejores humanos o un 68% mejor que contestar al túntún. En los torneos el público general cae al puesto 21º.

El año pasado el público general ocupaba el segundo puesto tras los superpredictores, lo cual indica que más de 20 modelos han sorpassado a la gente normal y corriente en los últimos 12 meses. Así que no sería extraño que dentro de unos meses el ránking del torneo esté liderado por una IA. Una razón: la mente humana no puede mejorar más en tan breve periodo de tiempo; los algoritmos de los LLM en cambio lo hacen cada día. Y un truco: algunos LLM se han dado cuenta que los superpredictores son muy buenos en ciertos tipos de preguntas y, cuando lo consideran oportuno, copian lo que indique el mercado de predicción, que viene a ser la sabiduría colectiva (!!) Y a la larga esa estrategia les funciona.

En la gráfica que ilustra esta anotación puede verse la línea naranja de las IAs dirigiéndose amenazantemente a la de los superpredictores (recuérdese: cuanto más bajo el valor, más «listo» es un modelo»). No me extrañaría que cuando se produzca el cruce volvamos a tener noticias sobre los resultados del estudio y de cuál ha sido el modelo que ha llevado el primer puesto del torneo a casa… O a su centro de datos, vamos.