Ad verba per numeros

Hojas de ruta
Monday, April 7, 2008, 02:10 PM
En algunos posts he hablado de CLEANEVAL, un workshop a través del cual se pretenden desarrollar técnicas que nos permitan limpiar páginas web arbitrarias dejando sólo el contenido relevante.

Algunos de vosotros estáis trabajando en este proyecto y habéis experimentado ya con herramientas para obtener a partir de una página HTML una imagen.

Ahora lo que nos interesa es encontrar en dicha imagen "cajas" que contengan texto. Para ello os recomiendo utilizar en software de reconocimiento de caracteres GOCR. Una característica interesante es que se puede generar un archivo XML que tiene etiquetas para indicar las distintas regiones que localiza en el texto (p.ej. <line> y <block>).

Vuestra próxima tarea consiste en estudiar la forma de utilizar dicho software y generar para imágenes de páginas web obtenidas empleando las técnicas de la fase anterior las correspondientes cajas.

Os resultará mucho más sencillo determinar qué configuraciones son las más adecuadas si generáis un archivo SVG que os permita visualizar las cajas junto con la imagen original. A continuación os muestro un ejemplo (y su visualización):

<?xml version="1.0"?>
<html xmlns="http://www.w3.org/1999/xhtml"
xmlns:xlink="http://www.w3.org/1999/xlink"
xmlns:svg="http://www.w3.org/2000/svg">
<head>
<style>
rect:hover {fill-opacity:0.5; fill:red;}
</style>
</head>
<body>
<svg:svg width="995" height="4030">
<svg:image xlink:href="/blog/images/elpais2.jpg" width="995" height="4030"/>

<svg:g style="fill-opacity:0.2;">
<svg:rect x="10" y="315" width="350" height="40" stroke="red" fill="red"/>
<svg:rect x="10" y="350" width="330" height="35" stroke="red" fill="red"/>
<svg:rect x="10" y="380" width="290" height="35" stroke="red" fill="red"/>
<svg:rect x="30" y="415" width="90" height="15" stroke="red" fill="red"/>
</svg:g>
</svg:svg>
</body>
</html>

Por otro lado, dichas imágenes SVG os vendrán muy bien para ilustrar la documentación y la presentación del proyecto en la defensa.



Back Next