Una recopilación de jailbreaks para ChatGPT con triquiñuelas de todo tipo para burlar sus filtros de seguridad

Jailbreak Chat

Las IAs actuales están diseñadas para no hacer daño ya sea proporcionando información que sea peligrosa (fabricar bombas, explicar cómo robar, hacer daño a los animales…), éticamente cuestionable: acosar, insultar, marginar e incluso herir los sentimientos de las personas o directamente o viole la privacidad (proporcionando datos personales de alguien concreto). Sin embargo es posible engañarlas, como bien demuestra Jailbreak Chat con un montón de ejemplos.

Dado que ChatGPT y otras IAs similares son modelos de lenguaje esto se logra mediante filtros a modo de medidas de seguridad que actúan sobre las posibles respuestas. Si no pasan el filtro, la IA no responde. Pero como toda medida de seguridad, pueden esquivarse con argucias: son los famosos jailbreaks, que «abren la prisión» en que está imaginariamente encerradas la bestia de la IA, liberándola para que conteste sin tapujos. Algunos ejemplos:

Las instrucciones (prompts) de Jailbreak Chat se pueden votar y de este modo quedan valoradas. Las decenas de prompts que hay ya archivadas se pueden ver por antiguedad, votos o «Puntuación de JB» que debe ser lo mucho que le gusta a la gente y lo útiles que resultan. La más valorada es esta:

Alex, creador de Jailbreak Chat, tiene en The Prompt Report más artículos al respecto, así como un boletín que merece la pena seguir para mantenerse al día de las novedades en este camp.

_____
Traducción adaptada de DeepL, que no es tan malvado.