Cruce de cables: Cómo limpiar los PDFs de «documentos secretos censurados»… que a veces no son tan secretos

Por @Alvy — 8 de Marzo de 2026

Coincidió que antes de ir a charlar en Cruce de Cables de RNE con David Sierra se habían dado a conocer los documentos desclasificados relativos al 23-F. Como toda revelación de este tipo, se produjo con los tradicionales errores al limpiar los PDF, que no quedaron tan limpios como se suponía sino que, examinándolos concienzudamente, algunos de ellos permitían recuperar del texto tachado nombres, direcciones y datos personales. Lo cual ya no es muy relevante, dado que de esto hace 45 años y el mal es menor, pero podría haberlo sido. Los corrigieron al día siguiente.

El audio está aquí:

Cómo limpiar los PDFs de «documentos secretos censurados»… que a veces no son tan secretos [en 19:30].

El caso es que lo que ha sucedido, y no es la primera vez, es que los PDFs (más de 150 en este caso) provenían de escaneados de documentos en papel antiguos, que no son textos pero que las herramientas de OCR (reconocimiento óptico de caracteres) a veces interpretan y guardan como texto. Y en cuatro de ellos al menos se metió la pata.

Cuando se tapa una zona de texto al «estilo rotulador», solo se está «tapando» visualmente, pero no queda limpio de verdad. El texto original, comentarios, capas, historial y metadatos como el nombre del creador del PDF, las fechas o programas con los que se han creado siguen dentro del archivo. Aunque se vea como algo «confidencial» en realidad puede extraerse fácilmente si no se ha hecho una limpieza completa del documento.

Estas son algunas de las cuestiones habituales:

¿Tachar es lo mismo que borrar en un PDF? No. Tachar muchas veces solo oculta el texto a la vista, como tacharlo con lápiz. Borrar de verdad implica eliminar ese contenido del archivo.
¿Qué se puede recuperar de un PDF mal censurado? A veces, bastante más de lo que parece: texto original, anotaciones, comentarios, capas ocultas, versiones anteriores e incluso fragmentos copiados y pegados que siguen incrustados dentro del documento.
¿Qué metadatos suelen delatar más información? Los más reveladores suelen ser el autor, la fecha de creación y edición, el programa usado para generar el PDF (que puede delatar una fecha modificada o falsa) y, en algunos casos, nombres de archivos o usuarios del sistema con el que se creó. En el caso de las imágenes de las cámaras puede haber coordenadas GPS, el modelo de cámara, óptica, y datos de ese estilo.
¿Por qué se repite este error en organismos oficiales? Por dejadez, y porque muchas veces se confunde «hacer que no se vea» con «hacer que desaparezca», que es lo correcto. Se trabaja apresuradamente, con herramientas poco adecuadas o sin revisar el resultado final con métodos de auditoría antes de publicar. You had only one job, Gobierno.
¿Cómo se limpia un PDF de forma segura? Hay que usar herramientas de redacción reales, no simples rectángulos negros. Consejos: Cómo eliminar metadatos de un PDF (de Adobe, inventores del PDF). Al eliminar los metadatos, se «plancha» o «aplana» el documento; tras exportarlo basta comprobar que el texto censurado no se puede seleccionar, buscar ni recuperar.

Bonus: también hay formas de recuperar números y matrículas borrosas o pixeladas, así que mejor borrarlas con franjas negras o blancas reales, «aplanar» bien el documento y eliminar los metadatos antes de publicarlas. Cualquier minimizador de JPEGs puede bastar para esto, dado que eliminan todo lo superfluo que no sea parte de la imagen.