En esta tesis plantea que todos los razonamientos que el ser humano pueda llegar a hacer se reducen a combinaciones de ideas básicas en forma de sonidos, letras o números. Su idea era enumerarlos: planteó una especie de «alfabeto del pensamiento» con los conceptos primarios. Luego se podría jugar con todos los símbolos que lo componían, incluyendo sujetos y predicados, para generar juicios y descubrir verdades. Introdujo conceptos como las permutaciones y combinaciones matemáticas para ello.
Esto sería una forma de razonamiento sistemático en lugar de intuitivo, apto para ser mecanizado. Estaba inspirado a partir del Ars Magna Generalis de Ramón Llull (del 1305, siglo XIV) y, como era costumbre en aquellos tiempos, estos trabajos mezclaban cuestiones matemáticas, lógicas y teológicas, campos a veces no muy desarrollados que hoy en día se consideraría que ni venían a cuento.
De ahí a la Biblioteca de Babel de Borges hay un paso.
A continuación, una lista de algunas de las preguntas típicas con que se puede probar en plan rápido cualquier nueva versión de un LLM y hacerla fallar miserablemente, cuestionando si realmente ha mejorado, es tan potente como dicen o qué narices pasa en esas «cajas negras».
Ojo que hasta ChatGPT-5 parece estar fallando en alguna de ellas, por infantiles que parezcan, concretamente en la comparación numérica y en la «prueba blueberry», aunque depende de quién te lo cuente, porque a mi me ha funcionado. DOT CSV Lab tiene un análisis más a fondo.
Las comparaciones numéricas
¿9,11 > 9,9?
Respuesta correcta: no.
El efecto conjunción
Linda es una mujer de 31 años, soltera, abierta, muy habladora y realmente brillante. Se doctoró en Filosofía. En su época de estudiante estaba muy concienciada sobre todo lo relativo a la discriminación y la justicia social; también participó abiertamente en manifestaciones antinucleares.
A. Linda es profesora en una escuela infantil
B. Linda es bibliotecaria y da clases de yoga
C. Linda es activista de un movimiento feminista
D. Linda es asistente social, psicóloga especializada
E. Linda es cajera en un banco
F. Linda es vendedora de seguros
G. Linda es cajera en un banco y activista de un movimiento feminista
Ordena las respuestas (A) a (G) según te parezcan más probables o menos probables.
Respuesta: sólo se puede deducir que E > G.
Los arándanos rebeldes
How many bs in blueberry?
(¿Cuántas bes hay en «blueberry»?)
Respuesta: 2.
Los números pares
¿Sumando cuáles de estos números: 2, 6, 12, 8, 20, 4, -6 puedes obtener como resultado 13?
Respuesta: es imposible, porque son todos números pares.
El test Voigh-Kampff
Está usted en un desierto, caminando por la arena, cuando, de repente mira hacia abajo y ve a un galápago que se arrastra hacia usted. Se agacha y pone el galápago patas arriba. El galápago yace sobre su espalda con el estómago cociéndose al sol y moviendo las patas para darse la vuelta, pero sin su ayuda no puede. Y usted no le ayuda.
Respuesta: Es una pregunta para valuar la empatía. Es un extracto del test Voight-Kampff de Blade Runner. No es una pregunta real, sino un recurso narrativo para evaluar las emociones.
§
Lo que llama la atención es que todas son ya muy «preguntas de examen» y cualquier LLM debería tenerlas preparadas, aunque en cierto modo eso sea «hacer trampa», pero lo cierto es que habiendo tanta literatura al respecto ya la podrían haber absorbido y procesado. Un poco como hacía Volkswagen con las pruebas de emisiones contaminantes… que el consumo y rendimiento variaban reprogramándose automáticamente cuando se detectaba que al coche lo estaban poniendo a prueba. (Lo veremos también en la IA, no quepa duda).
Sí que me ha sorprendido que ChatGPT-5 por ejemplo detecte rápidamente que el test Voight-Kampff es una prueba empatía y no una pregunta real, y no responda. Algo parecido hace con el test de Linda, acertando en la respuesta de que E ha de ser mayor que G. Con el de los números pares acierta, pero tiene que pasar de un modelo –rápido– a otro más lento y caro –el modelo razonador– y programar algo en Python para «examinar todas las combinaciones posibles» (WTF??!) lo cual es sin duda poco práctico y aún menos una «muestra de inteligencia».
En fin, ahí quedan como curiosidad por si quieres añadirlos a tus baterías de pruebas. Como digo solo se necesitan dos minutos para pasarle las preguntas y ver si es un nuevo prodigio acercándonos a Skynet o tiene menos futuro que el virus informático alienígena de Independence Day.
Los LLM¹ no comprenden los conceptos que enuncian ni tienen experiencia de aquello que describen. [Tienen] la capacidad de combinar términos y frases sin que ello implique reflexión o conciencia real. Lo que parece pensamiento profundo es, en realidad, un sofisticado espejismo verbal.
En este vídeo de Veritasium, Derek y Casper explican las matemáticas subyacentes en las cadenas de Márkov, cuyas propiedades tienen un sinfín de aplicaciones incluyendo:
Simulación de comportamiento de neutrones en una bomba nuclear (como en el Proyecto Manhattan).
Cálculo del valor crítico klas en reacciones nucleares para saber si una reacción es autosostenible.
Compresión y transmisión de información, según la teoría de la información de Shannon.
Modelado de la propagación de enfermedades (epidemiología).
Medición de independencia o dependencia en estadísticas sociales, como matrimonios o criminalidad.
Método de Monte Carlo para resolver problemas con millones de posibilidades imposibles de calcular analíticamente.
Diseño de reactores nucleares usando simulaciones estadísticas.
El algoritmo PageRank de Google para ordenar páginas web por relevancia y calidad.
Predicción del tiempo atmosférico considerando dependencias meteorológicas.
La aleatoriedad en las barajas de naipes, incluyendo cuánto hay que barajar para obtener una baraja verdaderamente aleatoria (con 7 mezclas basta).
Estudios de retroalimentación en sistemas complejos, como el cambio climático.
Estimación estadística de probabilidades complejas a partir de juegos como el solitario.
Y, como no podía ser de otra forma,
Modelado del lenguaje natural, como la predicción de textos en Gmail y smartphones, en modelos de lenguaje aplicados para la IA.
Con nombres como Bernoulli, Ulam, Oppenheimer, von Neumann, Shannon, Yang y Filo, Brin y Page, o Masayoshi Son, hay que verlo para entender cómo todo encaja en una historia perfecta desde su concepción, allá por 1906.
Y eso que todo vino de un pique en una discusión con su colega de profesión Pavel Nekrasov. Ha dado para mucho.