Por @Alvy — 14 de Julio de 2020

Un extractor de tablas HTML sencillo y que funciona

HTML Table Scraper es una aplicación de esas sencillas que hace una sola cosa y la hace bien: extraer datos de tablas de las páginas HTML y exportarlas como hojas de cálculo en formato CSV. Esto evita tener que hacer malabarismos con los copypastes y la hoja de cálculo, porque aunque estamos en el siglo XXI no es algo que resulte fácil precisamente.

Todo lo que hay que hacer es (1) pegar la URL de la página y (2) en caso de que haya varias tablas elegir cuál de ellas se quiere exportar. Con un clic el fichero se descarga y queda en formato CSV con una fila por registro y los campos separados por comas. Si hay textos con comas se encierran entre comillas; si hay celdas vacías aparecen como empty cell, lo que permite un tratamiento semimanual posterior.

La conversión no siempre es perfecta; por ejemplo en algunas tablas de la Wikipedia los números de notas al estilo nota[42] también se incluyen con los datos, y hay que filtrarlos a mano. Como todo esto suele tener un patrón –comas, comillas, corchetes– se pueden filtrar con otro programa. Yo suelo hacerlo con BBEdit, pero casi cualquier editor puede valer.

Relacionado:

Compartir en Flipboard Compartir en Facebook Tuitear

PUBLICIDAD




PUBLICIDAD


Microsiervos Selección


Visualize This: The FlowingData Guide to Design, Visualization, and Statistics

EUR 24,56

Comprar


Alan Turing and his Contemporaries: Building the world’s first computers

EUR 20,74 (Reseña en Microsiervos)

Comprar


Amazon Associates

Los productos aquí enlazados están a la venta en Amazon. Incluyen un código de Afiliado Amazon Associates que nos cede un pequeño porcentaje de las ventas. Los productos están seleccionados por los autores del blog, pero ni Amazon ni los editores de los libros o fabricantes de los productos participan en dicha selección.

Más libros y productos en:

Microsiervos Selección