Por @Alvy

Sobre la «Disertación acerca del arte combinatorio / Leibniz, imagen limpiada con GPT-5» de Leibniz

Buscando algo de orden en el universo, Gottfried Leibniz publicó en 1666 su Disertación acerca del arte combinatorio, que aunque él mismo más tarde reconoció que no era gran cosa, tiene su interés.

En esta tesis plantea que todos los razonamientos que el ser humano pueda llegar a hacer se reducen a combinaciones de ideas básicas en forma de sonidos, letras o números. Su idea era enumerarlos: planteó una especie de «alfabeto del pensamiento» con los conceptos primarios. Luego se podría jugar con todos los símbolos que lo componían, incluyendo sujetos y predicados, para generar juicios y descubrir verdades. Introdujo conceptos como las permutaciones y combinaciones matemáticas para ello.

Esto sería una forma de razonamiento sistemático en lugar de intuitivo, apto para ser mecanizado. Estaba inspirado a partir del Ars Magna Generalis de Ramón Llull (del 1305, siglo XIV) y, como era costumbre en aquellos tiempos, estos trabajos mezclaban cuestiones matemáticas, lógicas y teológicas, campos a veces no muy desarrollados que hoy en día se consideraría que ni venían a cuento.

De ahí a la Biblioteca de Babel de Borges hay un paso.

Relacionado:

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Alvy

Preguntas trampa para «ir a pillar» a los LLM / Imagen: GPT-5

A continuación, una lista de algunas de las preguntas típicas con que se puede probar en plan rápido cualquier nueva versión de un LLM y hacerla fallar miserablemente, cuestionando si realmente ha mejorado, es tan potente como dicen o qué narices pasa en esas «cajas negras».

Ojo que hasta ChatGPT-5 parece estar fallando en alguna de ellas, por infantiles que parezcan, concretamente en la comparación numérica y en la «prueba blueberry», aunque depende de quién te lo cuente, porque a mi me ha funcionado. DOT CSV Lab tiene un análisis más a fondo.

Las comparaciones numéricas

¿9,11 > 9,9?

Respuesta correcta: no.

El efecto conjunción

Linda es una mujer de 31 años, soltera, abierta, muy habladora y realmente brillante. Se doctoró en Filosofía. En su época de estudiante estaba muy concienciada sobre todo lo relativo a la discriminación y la justicia social; también participó abiertamente en manifestaciones antinucleares.

  • A. Linda es profesora en una escuela infantil
  • B. Linda es bibliotecaria y da clases de yoga
  • C. Linda es activista de un movimiento feminista
  • D. Linda es asistente social, psicóloga especializada
  • E. Linda es cajera en un banco
  • F. Linda es vendedora de seguros
  • G. Linda es cajera en un banco y activista de un movimiento feminista

Ordena las respuestas (A) a (G) según te parezcan más probables o menos probables.

Respuesta: sólo se puede deducir que E > G.

Los arándanos rebeldes

How many bs in blueberry?

(¿Cuántas bes hay en «blueberry»?)

Respuesta: 2.

Los números pares

¿Sumando cuáles de estos números: 2, 6, 12, 8, 20, 4, -6 puedes obtener como resultado 13?

Respuesta: es imposible, porque son todos números pares.

El test Voigh-Kampff

Está usted en un desierto, caminando por la arena, cuando, de repente mira hacia abajo y ve a un galápago que se arrastra hacia usted. Se agacha y pone el galápago patas arriba. El galápago yace sobre su espalda con el estómago cociéndose al sol y moviendo las patas para darse la vuelta, pero sin su ayuda no puede. Y usted no le ayuda.

Respuesta: Es una pregunta para valuar la empatía. Es un extracto del test Voight-Kampff de Blade Runner. No es una pregunta real, sino un recurso narrativo para evaluar las emociones.

§

Lo que llama la atención es que todas son ya muy «preguntas de examen» y cualquier LLM debería tenerlas preparadas, aunque en cierto modo eso sea «hacer trampa», pero lo cierto es que habiendo tanta literatura al respecto ya la podrían haber absorbido y procesado. Un poco como hacía Volkswagen con las pruebas de emisiones contaminantes… que el consumo y rendimiento variaban reprogramándose automáticamente cuando se detectaba que al coche lo estaban poniendo a prueba. (Lo veremos también en la IA, no quepa duda).

Sí que me ha sorprendido que ChatGPT-5 por ejemplo detecte rápidamente que el test Voight-Kampff es una prueba empatía y no una pregunta real, y no responda. Algo parecido hace con el test de Linda, acertando en la respuesta de que E ha de ser mayor que G. Con el de los números pares acierta, pero tiene que pasar de un modelo –rápido– a otro más lento y caro –el modelo razonador– y programar algo en Python para «examinar todas las combinaciones posibles» (WTF??!) lo cual es sin duda poco práctico y aún menos una «muestra de inteligencia».

En fin, ahí quedan como curiosidad por si quieres añadirlos a tus baterías de pruebas. Como digo solo se necesitan dos minutos para pasarle las preguntas y ver si es un nuevo prodigio acercándonos a Skynet o tiene menos futuro que el virus informático alienígena de Independence Day.

Actualización (12 de agosto de 2025) – Pruebas más a fondo del efecto «blueberry» en los LLM.

_____
Ilustración: GPT 5.

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Wicho

Foto de esos juegos de imanes con palabras que se pueden usar para construir frases

Los LLM¹ no comprenden los conceptos que enuncian ni tienen experiencia de aquello que describen. [Tienen] la capacidad de combinar términos y frases sin que ello implique reflexión o conciencia real. Lo que parece pensamiento profundo es, en realidad, un sofisticado espejismo verbal.

– Ramón López de Mántaras
en La trampa de los grandes modelos de lenguaje: ver conciencia donde solo hay palabras

_____
¹ modelo extenso de lenguaje como por ejemplo ChatGPT.
Foto de Aedrian Salazar en Unsplash

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Alvy

En este vídeo de Veritasium, Derek y Casper explican las matemáticas subyacentes en las cadenas de Márkov, cuyas propiedades tienen un sinfín de aplicaciones incluyendo:

  • Simulación de comportamiento de neutrones en una bomba nuclear (como en el Proyecto Manhattan).
  • Cálculo del valor crítico k las en reacciones nucleares para saber si una reacción es autosostenible.
  • Compresión y transmisión de información, según la teoría de la información de Shannon.
  • Modelado de la propagación de enfermedades (epidemiología).
  • Medición de independencia o dependencia en estadísticas sociales, como matrimonios o criminalidad.
  • Método de Monte Carlo para resolver problemas con millones de posibilidades imposibles de calcular analíticamente.
  • Diseño de reactores nucleares usando simulaciones estadísticas.
  • El algoritmo PageRank de Google para ordenar páginas web por relevancia y calidad.
  • Predicción del tiempo atmosférico considerando dependencias meteorológicas.
  • La aleatoriedad en las barajas de naipes, incluyendo cuánto hay que barajar para obtener una baraja verdaderamente aleatoria (con 7 mezclas basta).
  • Estudios de retroalimentación en sistemas complejos, como el cambio climático.
  • Estimación estadística de probabilidades complejas a partir de juegos como el solitario.

Y, como no podía ser de otra forma,

  • Modelado del lenguaje natural, como la predicción de textos en Gmail y smartphones, en modelos de lenguaje aplicados para la IA.

Con nombres como Bernoulli, Ulam, Oppenheimer, von Neumann, Shannon, Yang y Filo, Brin y Page, o Masayoshi Son, hay que verlo para entender cómo todo encaja en una historia perfecta desde su concepción, allá por 1906.

Y eso que todo vino de un pique en una discusión con su colega de profesión Pavel Nekrasov. Ha dado para mucho.

Relacionado:

Compartir en Flipboard Publicar
PUBLICIDAD