Ad verba per numeros

Corpora paralelos UE, Hojas de ruta
Tuesday, September 18, 2007, 08:25 PM
En estos momentos ya se deber铆a disponer de un sistema capaz de generar archivos (seguramente XML) que contienen los textos planos procedentes de las notas de prensa. El inconveniente es que en algunas ocasiones las notas no est谩n escritas en el idioma correspondiente (p.ej. algunas notas de prensa pueden estar escritas s贸lo en castellano y aparecer en todos los idiomas).

Para solucionar esto habr铆a que (1) procesar dichos archivos documento a documento, (2) determinar si el documento est谩 efectivamente escrito en el idioma supuesto y (3) generar un archivo de salida que s贸lo contuviese los documentos en el idioma correcto.

Para ello pueden utilizarse cualquiera de los siguientes servicios de detecci贸n de idioma:

Es preciso se帽alar que ninguno de estos "servicios" es un servicio web aut茅ntico (REST o SOAP) as铆 que habr谩 que realizar algo de "ingenier铆a inversa" para utilizar el que se seleccione finalmente.

Para esta fase recomiendo utilizar alg煤n lenguaje de script (p.ej. PHP, Python o Ruby). Para el procesamiento de los archivos XML habr铆a que utilizar un parser SAX.

Actualizaci贸n: Algunos enlaces sobre el parsing de XML en distintos lenguajes:



Back Next