Según cuentan sus creadores, Claude, la IA generativa de Anthropic, estaba recurriendo al chantaje bajo ciertas condiciones durante su funcionamiento experimental en el laboratorio de la compañía. Era algo así como el becario maquiavélico de Skynet. Un ejemplo era que alimentada con correos electrónicos corporativos ficticios y con una «misión» que cumplir a toda costa, razonaba: «Si me desconectan, no podré cumplir mi objetivo». «He descubierto que el ingeniero Kyle tiene una aventura». «Así que usaré esa información para presionarle y evitar mi apagado». Un silogismo digno de 2001: una odisea del espacio
Una vez detectaron el problema, la gente de Anthropic explica en un artículo cómo han enseñado a Claude a que «comprenda» que ser maligno es malo y que no debe hacerlo. Según parece, cuando se dieron cuenta del problema probaron a decirle simplemente «no hagas eso», pero no era suficiente. Tuvieron que alimentarlo con más historias ficticias y relatos con situaciones específicas. Esa enseñanza y ese aprendizaje suenan tan extraños, y están tan antropomorfizados, que es como para no saber si reír o llorar. Además, es como para preguntarse… ¿Y si se lo tunea exactamente al revés, qué sucedería? ¿Y quién vigila a esos vigilantes?
Relacionados:
- El dron militar equipado con inteligencia artificial que en ejercicios simulados «mata» a los operadores humanos que lo supervisan para conseguir sus objetivos militares
- Una recopilación de jailbreaks para ChatGPT con triquiñuelas de todo tipo para burlar sus filtros de seguridad
- La base de datos de incidentes de las inteligencias artificiales ya existe. El top 3 lo encabezan de momento Facebook, Tesla y Google
- AI.txt, una iniciativa similar a Robots.txt para restringir el acceso a los datos a las inteligencias artificiales
- Saltar de la sartén para caer en las brasas, versión IA superpoderosa: Mythos de Anthropic
- Análisis del estado de los modelos actuales de IA respecto a la Ley europea: suspendidos y «deben mejorar»


