Ad verba per numeros

Corpora paralelos UE, Hojas de ruta
Tuesday, September 18, 2007, 06:25 PM
En estos momentos ya se debería disponer de un sistema capaz de generar archivos (seguramente XML) que contienen los textos planos procedentes de las notas de prensa. El inconveniente es que en algunas ocasiones las notas no están escritas en el idioma correspondiente (p.ej. algunas notas de prensa pueden estar escritas sólo en castellano y aparecer en todos los idiomas).

Para solucionar esto habría que (1) procesar dichos archivos documento a documento, (2) determinar si el documento está efectivamente escrito en el idioma supuesto y (3) generar un archivo de salida que sólo contuviese los documentos en el idioma correcto.

Para ello pueden utilizarse cualquiera de los siguientes servicios de detección de idioma:

Es preciso señalar que ninguno de estos "servicios" es un servicio web auténtico (REST o SOAP) así que habrá que realizar algo de "ingeniería inversa" para utilizar el que se seleccione finalmente.

Para esta fase recomiendo utilizar algún lenguaje de script (p.ej. PHP, Python o Ruby). Para el procesamiento de los archivos XML habría que utilizar un parser SAX.

Actualización: Algunos enlaces sobre el parsing de XML en distintos lenguajes:



Back Next