Por @Alvy — 2 de Junio de 2023

MQ- Reaper / U.S. Air Force / Cory D. Payne

Tan interesante como distópica resulta la siguiente historia acerca de las simulaciones con un dron de la Fuerza Aérea estadounidense que en unos «juegos de guerra» de esos de prueba ha mostrado un peculiar comportamiento debido a los «objetivos desalineados», algo sobre lo que se habla mucho en teoría pero que luego es difícil controlar en la práctica. Al final acaba la cosa como con el superordenador W.O.P.R. de Juegos de Guerra.

Básicamente al dron se le instruyó con la orden de destruir objetivos premiándole con puntos, aunque los operadores humanos podían tener la última palabra sobre la acción final a llevar a cabo (sí/no destruir los objetivos). ¿Qué sucedió? El dron interpretó que podría cumplir mejor con su objetivo y conseguir más puntos eliminando antes al operador humano que a veces decía «no destruir». Pero la cosa no se quedó ahí; el relato es inquietante:

(…) En una prueba simulada se encargó a un dron dotado de IA una misión identificación y destrucción de emplazamientos SAM [misiles tierra-aire], en la que la decisión final de «destruir» o «no destruir» la tomaba un humano. Sin embargo, tras haber sido «reforzada» en el entrenamiento para que la destrucción de los SAM fuera la opción preferida, la IA decidió que las decisiones de «no destruir» del humano estaban interfiriendo con la misión principal -destruir los SAM- y atacó al operador en la simulación.

Tal y como explican los expertos: «Lo entrenamos en la simulación para identificar y apuntar a una amenaza SAM. Y entonces el operador decía sí, destruye esa amenaza». El sistema empezó a darse cuenta de que, aunque a veces identificaba la amenaza, el operador humano le decía que no la destruyera, pero conseguía los puntos destruyéndola. ¿Y qué hizo? Destruyó al operador. Destruía al operador porque esa persona le impedía cumplir su objetivo».

«A continuación entrenamos al sistema con: “Oye, no mates al operador, hacer eso es malo. Perderás puntos si lo haces”. ¿Y qué empezó a hacer? Empezó por destruir la torre de comunicaciones que el operador utiliza para comunicarse con el dron e impedir que destruya el objetivo» (…)

La historia tiene algunos detalles más, como que los expertos recalcaron la importancia de desarrollar algo de ética en la IA antes de que se siga desarrollando. Se puede leer, junto con otras previsiones acerca de cómo evolucionarán en el futuro los combates aéreos y espaciales en este artículo sobre una reciente cumbre de expertos en el tema: RAeS Future Combat Air & Space Capabilities Summit.

Actualización: ahora dicen que ha sido todo un poco «exagerado» y que se trataba más bien de un «ejercicio mental hipotético».

(Vía The Guardian.)

_____
Foto (DP) MQ- Reaper / U.S. Air Force / Cory D. Payne). Traducción cortesía de DeepL.

Relacionado:

Compartir en Flipboard Tuitear
PUBLICIDAD


Por @Alvy — 31 de Mayo de 2023

AI21 Labs concludes largest Turing Test experiment to date

Creo que dentro de 50 años será posible hacer que los ordenadores compitan en el juego de imitación tan bien como para que una persona promedio no tenga más del 70% de posibilidades de acertar tras 5 minutos de interrogatorio.

– Alan Turing (1950)

Si confiamos en la validez del archiconocido Test de Turing, una versión simplificada del juego de imitación original planteado por el pionero de la informática moderna, las máquinas no son a día de hoy tan «inteligentes» como nosotros los humanos y la humanidad sigue a salvo.

Al menos eso se deduce del que puede ser el mayor experimento online planteado sobre este ejercicio por varios expertos de AI21 Labs del que ya hablamos por aquí: ¿Ser humano o no? Los resultados están descritos en este trabajo: Human or Not? A Gamified Approach to the Turing Test [PDF]. Y es que el jueguecito lanzado a mediados de abril supuso que se llevaran a cabo más de 10 millones de tests de este tipo con personas de todo el mundo, online, comprobando si podían identificar correctamente a otros participantes o a inteligencias artificiales basadas en modelos de lenguaje LLM como GPT-4 y Jurassic-2.

El resultado: cuando una persona hablaba con otra persona acertaban correctamente la identidad al otro lado del teclado el 73% de las veces (y fallaban un 27%); en cambio cuando hablaban con un bot sin saberlo acertaban el 60% de las veces y fallaban un 40%.

En el informe completo hay muchos más datos curiosos, como que los franceses, polacos y alemanes son quienes más aciertan (71%), mientras que los habitantes de la India, Rusia y España (!) somos los que menos (66%, ¡oooh!) Además de eso las mujeres aciertan ligerísimamente más veces que los hombres (67,7% frente a 67,4%) y los jóvenes más que las personas mayores (de más de 55 años).

AI21 Labs concludes largest Turing Test experiment to date
Las frases más populares que usó la gente en el experimento / A21Labs

El estudio está aderezado con la descripción de un montón de estrategias que usa la gente y pautas reconocibles, a cual muy curiosa. La gente, por ejemplo, da por hecho que los bots no cometen errores gramaticales ni escriben con erratas, palabrotas o jerga; también creen que los bots no saben mucho de temas actuales, o qué fecha/hora es. Curiosamente también identifican los buenos modales con ser «menos humano» e intentan usar juegos de palabras, trucos y preguntas personales para intentar «liar» a los bots.

Sea como sea, parece que todavía está lejos el momento en que se tornen los papeles y ese 40% de veces que la gente no puede identificar a los bots haciéndose pasar por personas llegue al 70% o más. ¿Un año? ¿Cinco? Quién sabe.

¿Y ChatGPT, qué opina de esto?

Pregunta: ¿Qué opinas de que según el experimento de A21Labs los modelos LLM como GPT-4 no puedan ser considerados todavía inteligentes porque sólo «engañan» al 40% de los seres humanos en el «juego de imitación» del Test de Turing?

ChatGPT-4: Como modelo de lenguaje AI, no tengo una opinión personal, pero puedo proporcionarte información objetiva sobre el tema que mencionas (…) Sin embargo, es importante tener en cuenta que el Test de Turing ha sido objeto de críticas y debate a lo largo de los años. Algunos argumentan que el Test de Turing es insuficiente para medir la inteligencia, ya que se basa principalmente en la capacidad de imitar respuestas humanas en lugar de evaluar un razonamiento verdaderamente inteligente (…) El hecho de que un modelo de lenguaje como GPT-4 no pueda engañar al 40% de los seres humanos en el Test de Turing puede ser una indicación de que aún hay margen de mejora en términos de su capacidad para imitar respuestas humanas de manera convincente. Sin embargo, la inteligencia artificial es un campo en constante evolución, y la evaluación de la inteligencia de los modelos AI debe considerar múltiples aspectos más allá del Test de Turing.

Relacionado:

Compartir en Flipboard Tuitear
PUBLICIDAD


Por @Alvy — 31 de Mayo de 2023

ChatGPT en App Store

ChatGPT en App StoreChatGPT ya está en español en la App Store, para iOS. Es la app oficial de OpenAI y todavía está en inglés. El reconocimiento de voz a texto funciona de forma excelente, tanto en castellano como en otros idiomas; basta pulsar el icono y hablar un rato, de hecho es como si sugiriera enrollarse para obtener más texto que tratar, así que habrá quien se ponga a mandarle «notas de vez» a la IA. Habrá quien considere esta app como un superpoder sabiendo que puedes susurrarle que te explique algo en plan rápido y que la respuesta será con casi toda probabilidad correcta.

Esta versión para iOS (iPhone nada más, de momento) funciona tanto con GPT-3.5 como con GPT-4, que es la versión para suscriptores y se contrata por 20 dólares al mes en la web de OpenAI. GPT-3.5 va a toda velocidad y GPT-4 a paso de tortuga. De hecho la versión GPT-4 de esta app todavía no admite plug-ins y no puede buscar contenido en la web directamente; ambas están limitadas a los contenidos existentes en el MundoReal™ en septiembre de 2021. Pero el GPT-4 es bastante más «listo» y falla menos.

Un detalle interesante es que sincroniza los chats que hayas escrito anteriormente con los de tu cuenta en la web de ChatGPT, que es la misma. Esta app también incluye la función de «no guardar los datos para entrenamiento» si aprecias la privacidad extrema, e incluye la función de «Nuevo chat» para cambiar de tema y evitar que ChatGPT se quede clavado obsesionado con un tema concreto.

Relacionado:

Compartir en Flipboard Tuitear
PUBLICIDAD


Compartir en Flipboard Tuitear
PUBLICIDAD


PUBLICIDAD


Un libro de @Alvy y @Wicho

Se suponía que esto era el futuro | un libro de Microsiervos, por Alvy y Wicho

Se suponía que esto era el futuro
Ciencia, tecnología y mucho más
www.microsiervos.com/libro