Claude chantajeaba a sus usuarios cuando se enfrentaba a dilemas extremos, cual IA maligna. Ya está «arreglado»

Por @Alvy — 11 de Mayo de 2026

Evil Claude / imagen: GPT 5.5 Según cuentan sus creadores, Claude, la IA generativa de Anthropic, estaba recurriendo al chantaje bajo ciertas condiciones durante su funcionamiento experimental en el laboratorio de la compañía. Era algo así como el becario maquiavélico de Skynet. Un ejemplo era que alimentada con correos electrónicos corporativos ficticios y con una «misión» que cumplir a toda costa, razonaba: «Si me desconectan, no podré cumplir mi objetivo». «He descubierto que el ingeniero Kyle tiene una aventura». «Así que usaré esa información para presionarle y evitar mi apagado». Un silogismo digno de 2001: una odisea del espacio

Una vez detectaron el problema, la gente de Anthropic explica en un artículo cómo han enseñado a Claude a que «comprenda» que ser maligno es malo y que no debe hacerlo. Según parece, cuando se dieron cuenta del problema probaron a decirle simplemente «no hagas eso», pero no era suficiente. Tuvieron que alimentarlo con más historias ficticias y relatos con situaciones específicas. Esa enseñanza y ese aprendizaje suenan tan extraños, y están tan antropomorfizados, que es como para no saber si reír o llorar. Además, es como para preguntarse… ¿Y si se lo tunea exactamente al revés, qué sucedería? ¿Y quién vigila a esos vigilantes?

Relacionados: