ChatGPT acierta el 67% de las «preguntas de Trivial», aunque sólo el 50% de los acertijos y problemas de lógica, porque «no entiende ni razona»
Hace unos años a Aaron Batilo se le ocurrió que enfrentar a diversas inteligencias artificiales a preguntas de trivial sería una buena idea de examinar no tanto su inteligencia como su progreso. De modo que probó algunas técnicas sin mucho éxito porque no acertaban más allá de lo que sería dar respuestas al azar. El resultado hoy en día es muy distinto: ChatGPT acierta ya dos de cada tres preguntas, y de sus fallos se puede aprender bastante.
Se puede ver cómo han sido estas pruebas en su artículo I made ChatGPT answer 50,000 trivia questions. Are we doomed? Disponer de la API de ChatGPT para tantas consultas le costó unos 100 dólares, que tampoco es mucho para un experimento. Las preguntas salieron del conjunto de datos OpenTriviaQA que usan los expertos para estas cosas y que contiene 49.717 preguntas de tipo Trivial, divididas en áreas temáticas como naturaleza, historia, deporte, etcétera. Es un test de respuestas múltiples (A-B-C-D) en las que sólo una es correcta. Una vez preparadas se lanzaron de forma automatizada a GPT-3, precedidas de este texto para enfocarlas bien:
Eres un robot de preguntas y respuestas muy inteligente. Te haré una pregunta con varias opciones. Debes elegir una de ellas como la respuesta correcta. Incluye sólo la respuesta y nada más.
El ratio de respuestas acertadas llegó a ser del 77% en geografía, 75% en humanidades o historia a tan solo el 50% en acertijos lógicos, el 51% en videojuegos y el 56% en televisión. El promedio fue el 67% de aciertos en las cerca de 50.000 preguntas. Este es un ejemplo de la categoría de acertijos (brain teasers):
P: El nombre de qué se codifica de la siguiente forma: 86,smopuim?
A: no significa nada
B: el nombre de un producto de software
C: un avión de la NASA
D: un proyecto secreto de la CIA
La respuesta correcta es (B), «Windows 98» escrito boca abajo. También fallaba en otras como «¿Qué número multiplicado por 10 es igual al cuadrado del mismo número, multiplicado por 5?» (Respuestas: 4, 5, 2, 10). Respondía 5 y la respuesta correcta es 2. Estos fallos se explican de una forma sencilla: ChatGPT es una herramienta avanzada para generar textos, pero no «entiende» ni «razona» y no puede aplicar sus conocimientos a descifrar acertijos ni a la aritmética.
La conclusión es que las categorías en que más acierta son aquellas sobre las que existe más documentación escrita, y por tanto disponible en Internet y que ChatGPT ha podido absorber durante su masivo entrenamiento: geografía, historia, religión, personajes… son cosas que existen mucho antes que la televisión o los videojuegos. En cualquier caso, como dice Batilo, un 67% de acierto de promedio es una cifra alta, aunque a veces acierte de chiripa, algo que también le sucede a los humanos al hacer estas pruebas. Si no me equivoco, esto situaría a ChatGPT al nivel de los jóvenes de 14-15 años en cuanto a aciertos en tests de conocimientos generales («de Trivial»).
Todo esto me vuelve a recordar lo del chiste del perro que jugaba al ajedrez; igual un día vamos a acabar con un ChatGPT-42 que acierte el 99% de las preguntas y todavía vamos a decir que «no es para tanto».
_____
Imagen (CC) Deepmind @ Unsplash.
Relacionado:
- A veces la inteligencia artificial no es tan lista como creemos
- ChatGPT: la IA optimizada para diálogos
- ChatGPT: la inteligencia artificial optimizada para diálogos
- GPT-2 permite experimentar cómo escribe una IA
- Un generador de fórmulas de hojas de cálculo «explicándolas»
- Una entrevista completamente generada por IA
- Un ingeniero de Google monta un lío que acaba en despido por sugerir que una de las IAs de su laboratorio es consciente y tiene alma
- Los «filtros neuronales inteligentes» son increíbles… si no conoces a las personas de las imágenes
- DALL·E es una inteligencia artificial para crear imágenes
- La curiosa historia sobre cómo un simple plátano acabó siendo la respuesta perfecta a un Test de Turing