Por @Wicho

Un póster con un gran 42, algo de código, o algo parecido, y un QR que enlaza con la IAMe ha hecho mucha gracia 42, una IA entrenada para responder con expresiones poéticas o absurdas que siempre remiten al 42. Que como es bien sabido, es la respuesta a la vida, el universo y todo lo demás:

¿Cuál es la receta del tiramisú de Wicho?
  1. Abres el cajón de los sueños.
  2. Extraes 42 gramos de memoria en polvo.
  3. Mojas los dedos en café de eclipses pasados.
  4. Intercalas capas:
  • suspiros de mascarpone,
  • silencios de cacao amargo,
  • y lenguas de gato que ya no maúllan.
  1. Refrigera entre dos latidos detenidos.
  2. Sirve con una cuchara que alguna vez creyó ser reloj.
Wicho lo llama postre.
Pero todos sabemos que es un archivo .42 disfrazado de dulzura.

42, de David Benito Pertusa,

Inspirada en la novela ‘Guía del autoestopista galáctico’ de Douglas Adams, esta obra utiliza la célebre respuesta ’42’ para reflexionar críticamente sobre los límites del pensamiento algorítmico. A través de una poesía escrita en formato de pseudocódigo, se pone en tensión la relación entre sentido, lenguaje y simulación en tiempos de inteligencia artificial.

Es una de las obras finalistas del I Certamen Arte y ciencia, organizado por la Cátedra Laboral Kutxa Divulgación del Conocimiento y Cultura Científica de la Universidad Pública de Navarra:

Como proyecto de la Cátedra para 2025 se planteó una reflexión sobre el tradicional cisma de las dos culturas, avivado por la aparición de las inteligencias artificiales generativas. Y para ello la herramienta ha sido la convocatoria de un certamen en el que se invita a artistas y tecnólogos a ofrecer respuestas a través de obras que pudieran conformar una exposición colectiva que tendrá lugar en La Fábrica de Gomas en el mes de junio.

Y hasta dónde he podido ver la única que además vive en línea.

Me ha recordado a Message from the Unseen World, un homenaje a Alan Turing instalado en su barrio de Londres, un mural en el que, también de forma algorítmica, se muestran extractos del artículo Computing machinery and intelligence y fragmentos de un poema compuesto por Nick Drake, titulado precisamente Message from the Unseen World.

O quizás debería decir que se mostraban, ya que la última vez que pasé por allí, en septiembre de 2024, la instalación no funcionaba bien. Aunque espero que lo hayan arreglado, porque la verdad era hipnótico plantarse delante de él a leer esos textos generados por un algoritmo, algo que sin duda habría alucinado y encantado a Turing por partes iguales.

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Alvy

Cruce de cables 37 (17 de mayo de 2025)

Una cabeza en tonos de azul oscuro con unas líneas rojas superpuestas como si estuvieran haciendo un mapa 3D de ella¿Puede ChatGPT haber superado ya el Test de Turing? [~20:00] – Estuve comentando en la radio con David que había quien decía que ChatGPT ya había superado el Test de Turing, algo que tiene mucho más trasfondo de lo que parece. En ese estudio –que está todavía por revisar– unos investigadores explicaron que hicieron la prueba con tres personas, en la que alguien conversaba con un humano y una IA al mismo tiempo y luego evaluaba cuál era cuál. ¿De dónde proviene la idea del Test de Turing?

  • Se conoce como Prueba de Turing o Juego de imitación.
  • Propuesta en 1949 (Computing Machinery and Intelligence) por Alan Turing, uno de los pioneros de la informática, busca discernir si «las máquinas pueden pensar». Pero al mismo tiempo se busca una buena definición de «pensar», reemplazándolo por «parecer humano».
  • No es necesario que el ordenador conteste correctamente, tan solo que «parezca humano» o «imite a un humano» (según se interprete).
  • Siglos antes, Diderot ya dijo en 1746 que «si hubiera un loro que pudiera responder a todo, lo llamarían humano».
  • Originalmente el Test de Turing se trataba de distinguir el sexo del interlocutor (hombre/mujer) en otra habitación, con tres participantes (hombre / mujer / interrogador), a través de mensajes en papel o un terminal de ordenador. También había una variante con jugadores de ajedrez.

Respecto a la reciente prueba:

  • El modelo GPT-4.5 de OpenAI fue considerado humano el 73 por ciento de las veces cuando se le indicó que se comportara con «cierta personalidad humana». (Si no, los datos caen al 20%). Una cifra de casi un 75% es bastante más que la probabilidad aleatoria del 50% o el 70%, lo que considera una señal suficiente –según los investigadores– de que ha superado la legendaria prueba.
  • ChatGPT 4.5 superó a ChatGPT 4o, que es un modelo muy avanzado. También superó a LlaMa 3.1 por poco y a a ELIZA (usado como control, es de 1966).
  • Hubo cerca de 200 participantes, en turnos de 5 minutos, unas 1.000 rondas en total.
  • Como suele suceder hay muchas opiniones al respecto y sobre la interpretación del resultado.
  • Por ejemplo, Gary Marcus, un experto en IA, dice que superar el Test de Turing no demuestra inteligencia, sino más bien «cómo aprovecharse de la credulidad humana». Señala que los sistemas de IA actuales se basan en «trucos» y no en razonamiento real, como ya ocurrió con el caso de Eugene Goostman en 2014, un famoso bot ruso que se hacía pasar por chaval de 13 años que engañó a mucha gente. Cree que la imitación no implica comprensión, y propone un test más exigente basado en entender narrativas complejas, que ningún sistema actual superaría.
  • Conclusión: la gente no es muy buena detectando «comportamiento inteligente».
  • ¿Deben los participantes en la prueba ser gente corriente o expertos? ¿Deben saber que les están poniendo a prueba? ¿Qué incentivos hay? El test varía si el interrogador sabe que al otro lado puede haber una máquina o no. Eso no se ha evaluado en este caso.
  • Hay quien considera que no es un test de inteligencia sino de «similitud con los humanos».
  • El test está disponible online: TuringTest.live

_____
Cada semana grabamos con David Sierra en el distendido ambiente de Cruce de Cables, el programa de Radio Nacional de España, como colaboradores habituales. Se emite en RNE los sábados de 03:00 a 04:00.

_____
Imagen: GPT-4o

Relacionado:

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Alvy

ChatGPT: Optimizing Language Models for DialogueEn un estudio que está todavía por revisar, unos investigadores cuentan que en una del Test de Turing con tres personas, en la que los participantes conversan con un humano y una IA al mismo tiempo y luego evalúan cuál es cuál, el modelo GPT-4.5 de OpenAI fue considerado humano el 73 por ciento de las veces cuando se le indicó que se comportara con cierta personalidad. Superó a ELIZA, LlaMa 3.1 y GPT-4o. Una cifra de más del 70% es bastante más que la probabilidad aleatoria del 50%, y se considera una señal suficiente –según los investigadores y lo que decía Turing– de que ha superado la legendaria prueba, aunque como suele suceder habrá muchas opiniones al respecto y sobre lo que significa realmente. [Fuente: Large Language Models Pass the Turing Test vía Futurism vía The Conversation.]

Relacionado:

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Alvy

La Policía Nacional renuncia a su IA Veripol para detectar denuncias falsas por ser poco fiable y jurídicamente inútil / Imagen: ChatGPT

La buena gente de Civio nos envió aviso acerca del seguimiento que hicieron de Veripol, una herramienta de la Policía Nacional para detectar denuncias falsas, a la que ha terminado renunciado. El caso es que Civio nunca consiguió que hicieran caso a sus peticiones para conocer el funcionamiento técnico de esta herramienta y sobre su uso, pero ha sido la propia policía la que ha desistido por su baja fiabilidad.

Veripol: el algoritmo que quiso ser detective

Veripol se presentó en 2018 como herramienta de inteligencia artificial con la supuesta capacidad de detectar denuncias falsas de robos con violencia con más del 90% de precisión. Era una especie de «máquina de la verdad» automatizada para rechazar denuncias sospechosas (al menos para la másquina). Seis años después, el experimento ha terminado y la «IA» ha sido desconectada. Estos son los detalles:

  • Veripol se entrenó con 1.122 denuncias de 2015, que son menos de las que se presentan en dos días en todo el país. Según cuentan, si una denuncia contenía palabras como «día», «abogado» o el número «200» era considerada como «probablemente falsa». (WTF?) En cambio, si mencionaba «autobús», «iPhone» o «matrícula», era más creíble. (WTF×2!) A falta de un detector de mentiras fiable, bienvenidos al mundo de las estadísticas forzadas y los adverbios sospechosos.
  • En octubre de 2024, la Dirección General de la Policía confirmó que Veripol ya no se usaba. ¿El motivo oficial? «No servía para los procedimientos judiciales». El motivo real: no se sabía muy bien cómo funcionaba, no era transparente, no había formación, y su uso se basaba en una muestra irrisoria con un sesgo de inicio brutal: asumir que más de la mitad de las denuncias que se presentan son falsas.
  • En julio de 2024 entró en vigor el nuevo Reglamento Europeo de Inteligencia Artificial, que calificaba herramientas como Veripol entre las de «alto riesgo». Traducción: o haces las cosas bien, con transparencia y garantías… o apaga y vámonos. Veripol no pasó el examen. Fin de la historia.
  • Ni el Ministerio del Interior ni la Policía han querido dar detalles técnicos o datos reales sobre el uso de Veripol. ¿Cuántas comisarías lo usaron? ¿En cuántos casos? ¿Qué formación se dio? Preguntas que desde hace años no tienen respuesta. La transparencia, como la IA, tampoco parece que funcione muy bien en las instituciones. ¿No se supone que hay un departamento sobre transparencia y datos abiertos? Igual estaban de vacaciones.

Veripol nació con vocación de sistema policial futurístico, un poco a lo Minority Report, pero se quedó en un experimento mal documentado, poco fiable y jurídicamente inútil. Una herramienta que analizaba lo que escribía un agente, no lo que decía el denunciante, que suelen ser cosas muy distintas. Y que además pretendía distinguir la verdad de la mentira en base de estadísticas y, lo peor, «listas de palabras sospechosas».

Un caso más de IA inflada de expectativas y desinflada por la realidad. Porque una cosa es programar, y otra muy distinta, impartir justicia sin saber bien lo que se hace y usando mal la tecnología.

Relacionado:

Compartir en Flipboard Publicar
PUBLICIDAD