Ad verba per numeros
En estos momentos ya se deberÃa disponer de un sistema capaz de generar archivos (seguramente XML) que contienen los textos planos procedentes de las notas de prensa. El inconveniente es que en algunas ocasiones las notas no están escritas en el idioma correspondiente (p.ej. algunas notas de prensa pueden estar escritas sólo en castellano y aparecer en todos los idiomas). Para solucionar esto habrÃa que (1) procesar dichos archivos documento a documento, (2) determinar si el documento está efectivamente escrito en el idioma supuesto y (3) generar un archivo de salida que sólo contuviese los documentos en el idioma correcto.Para ello pueden utilizarse cualquiera de los siguientes servicios de detección de idioma:Es preciso señalar que ninguno de estos "servicios" es un servicio web auténtico (REST o SOAP) asà que habrá que realizar algo de "ingenierÃa inversa" para utilizar el que se seleccione finalmente.Para esta fase recomiendo utilizar algún lenguaje de script (p.ej. PHP, Python o Ruby). Para el procesamiento de los archivos XML habrÃa que utilizar un parser SAX.Actualización: Algunos enlaces sobre el parsing de XML en distintos lenguajes:
Back Next
Back Next