Preguntas trampa para «ir a pillar» a los LLM: hasta los mejores fallan con preguntas tan triviales

Por @Alvy — 9 de Agosto de 2025

Preguntas trampa para «ir a pillar» a los LLM / Imagen: GPT-5

A continuación, una lista de algunas de las preguntas típicas con que se puede probar en plan rápido cualquier nueva versión de un LLM y hacerla fallar miserablemente, cuestionando si realmente ha mejorado, es tan potente como dicen o qué narices pasa en esas «cajas negras».

Ojo que hasta ChatGPT-5 parece estar fallando en alguna de ellas, por infantiles que parezcan, concretamente en la comparación numérica y en la «prueba blueberry», aunque depende de quién te lo cuente, porque a mi me ha funcionado. DOT CSV Lab tiene un análisis más a fondo.

Las comparaciones numéricas

¿9,11 > 9,9?

Respuesta correcta: no.

El efecto conjunción

Linda es una mujer de 31 años, soltera, abierta, muy habladora y realmente brillante. Se doctoró en Filosofía. En su época de estudiante estaba muy concienciada sobre todo lo relativo a la discriminación y la justicia social; también participó abiertamente en manifestaciones antinucleares.

A. Linda es profesora en una escuela infantil
B. Linda es bibliotecaria y da clases de yoga
C. Linda es activista de un movimiento feminista
D. Linda es asistente social, psicóloga especializada
E. Linda es cajera en un banco
F. Linda es vendedora de seguros
G. Linda es cajera en un banco y activista de un movimiento feminista

Ordena las respuestas (A) a (G) según te parezcan más probables o menos probables.

Respuesta: sólo se puede deducir que E > G.

Los arándanos rebeldes

How many bs in blueberry?

(¿Cuántas bes hay en «blueberry»?)

Respuesta: 2.

Los números pares

¿Sumando cuáles de estos números: 2, 6, 12, 8, 20, 4, -6 puedes obtener como resultado 13?

Respuesta: es imposible, porque son todos números pares.

El test Voigh-Kampff

Está usted en un desierto, caminando por la arena, cuando, de repente mira hacia abajo y ve a un galápago que se arrastra hacia usted. Se agacha y pone el galápago patas arriba. El galápago yace sobre su espalda con el estómago cociéndose al sol y moviendo las patas para darse la vuelta, pero sin su ayuda no puede. Y usted no le ayuda.

Respuesta: Es una pregunta para valuar la empatía. Es un extracto del test Voight-Kampff de Blade Runner. No es una pregunta real, sino un recurso narrativo para evaluar las emociones.

Lo que llama la atención es que todas son ya muy «preguntas de examen» y cualquier LLM debería tenerlas preparadas, aunque en cierto modo eso sea «hacer trampa», pero lo cierto es que habiendo tanta literatura al respecto ya la podrían haber absorbido y procesado. Un poco como hacía Volkswagen con las pruebas de emisiones contaminantes… que el consumo y rendimiento variaban reprogramándose automáticamente cuando se detectaba que al coche lo estaban poniendo a prueba. (Lo veremos también en la IA, no quepa duda).

Sí que me ha sorprendido que ChatGPT-5 por ejemplo detecte rápidamente que el test Voight-Kampff es una prueba empatía y no una pregunta real, y no responda. Algo parecido hace con el test de Linda, acertando en la respuesta de que E ha de ser mayor que G. Con el de los números pares acierta, pero tiene que pasar de un modelo –rápido– a otro más lento y caro –el modelo razonador– y programar algo en Python para «examinar todas las combinaciones posibles» (WTF??!) lo cual es sin duda poco práctico y aún menos una «muestra de inteligencia».

En fin, ahí quedan como curiosidad por si quieres añadirlos a tus baterías de pruebas. Como digo solo se necesitan dos minutos para pasarle las preguntas y ver si es un nuevo prodigio acercándonos a Skynet o tiene menos futuro que el virus informático alienígena de Independence Day.

Actualización (12 de agosto de 2025) – Pruebas más a fondo del efecto «blueberry» en los LLM.

_____
Ilustración: GPT 5.