El test de Lovelace es una versión más exigente del test de Turing para las IAs, que los LLM actuales ya podrían haber superado

Por @Alvy — 16 de Mayo de 2026

El test de Lovelace es una versión más exigente del test de Turing para las IAs, que los LLM actuales ya podrían haber superado /

Estuve viendo en el artículo The Lovelace Test Revisited de Paul Siemers cómo enfoca el llamado test de Lovelace, una especie de alternativa de hace dos décadas, más exigente que la de Turing acerca de si las máquinas podrían actuar de forma indistinguible a los humanos.

Las bases del test de Lovelace se publicaron en Minds and Machines en 2001 y se ha considerado durante mucho tiempo una de las más exigentes para «medir la inteligencia artificial» (sea lo que sea eso). La idea de sus autores, Bringsjord, Bello y Ferrucci, es sencilla y va más allá de la de Turing:

Una máquina inteligente debería poder producir algo original de forma que ni siquiera sus propios creadores puedaan explicar completamente cómo lo ha hecho.

Frente al clásico test de Turing, que está ideado para reconocer si una máquina parece humana conversando (hay quien lo considera ya superado), el test de Lovelace intenta medir la creatividad, otra característica que se considera superior y propia de los seres inteligentes. Sus autores sostienen que sólo se puede considerar que un ordenador tiene «mente» si muestra creatividad de forma independiente a los humanos. En 2014 se publicaría el test de Lovelace 2.0, una versión mejorada que además permitía comparar la inteligencia relativa de distintos agentes.

Los expertos siguen divididos entre si esa creatividad es propia de loros estocásticos o de entidades realmente inteligentes y creativas.

El artículo viene a afirmar que los modelos actuales tipo ChatGPT ya superan la prueba de Lovelace sobradamente. Habla de cómo se ha pasado de modelos especializados que sólo servían en un contexto (escribir novelas de amor y traición, jugar al go, etcétera) a otros más generales, gracias a haber ingerido enormes cantidades de textos, código e imágenes producidos por humanos y utilizar luego estimaciones probabilísticas.

El punto es que en las premisas del test de Lovelace se establece que los creadores del sistema (ChatGPT en este caso) deberían poder dar una explicación válida para reconstruir un resultado de forma concreta y detallada. Pero estos sistemas pueden necesitar del orden de 10¹⁴ a 10¹⁵ cálculos para generar un texto, por ejemplo un relato de apenas 500 palabras. Algo que ya sería «imposible de reconstruir» para ningún humano en un tiempo razonable, por no hablar de que la versión original de la prueba hablaba de «uno o dos años».

¿Hacen esas IAs cosas para las que no fueron entrenadas? ¿Son realmente creativas? ¿Es tan sorprendente esa creatividad? Quizá, como dicen en el artículo, el test de Lovelace solo mida otra cosa: la imprevisibilidad. Algo que también acercaría a las IAs a un rasgo propio de la humanidad, aunque no por el mismo camino.

_____
Imagen: Ada Lovelace (CC) SuperColoring.com

Relacionados: