Ad verba per numeros

Servicios y Utilidades
Tuesday, March 20, 2007, 02:40 PM
Un problema cuando se quiere extraer un corpus de la Web es que las páginas HTML rara vez están "limpias"; además del texto que nos interesa suele haber publicidad, menús, enlaces relacionados, publicidad, información sobre copyright y, claro está, publicidad. Al proceso de eliminar todo el ruido y quedarse con el texto esencial se le denomina screen scraping.

Tania está trabajando en la obtención de un corpus paralelo inglés-japonés a partir de los enlaces que amablemente ofrece John Fry y lleva un tiempo peleándose con este problema.

No obstante, Tania no va a ser la única y muchos de vosotros, ahora o más adelante, os veréis en la tesitura de querer extraer algo de texto plano de una página web atiborrada de ruido. Para esas situaciones os recomiendo Dapper, un sitio en la línea de Feedity sólo que en lugar de ofrecer los enlaces de una página en formato RSS os permite configurar de manera visual un screen scraper que podéis reutilizar sobre varias páginas del mismo sitio.

Naturalmente, no es a prueba de bombas pero facilita mucho las cosas. Lamentablemente no me parece una solución viable para un corpus con más de 35.000 documentos así que habrá que esperar :( a ver qué nos ofrece CLEANEVAL para disponer de soluciones robustas y escalables.



Back Next