Ad verba per numeros

Corpora paralelos UE, Hojas de ruta
Tuesday, October 23, 2007, 08:48 AM
Uno de los objetivos de este proyecto es disponer de material en varios idiomas que permita entrenar un sistema de extracción de palabras clave. En la actualidad existen algunos sistemas que permiten extraer los términos más relevantes para textos ingleses pero no se dispone del equivalente para otros idiomas. En esta versión del proyecto nos conformaremos con obtener dichos términos para los documentos en inglés y, en todo caso, se estudiará la posibilidad de obtener "traducciones" para los mismos por otros medios para el resto de idiomas.

Esta extracción debe realizarse únicamente para los textos en inglés (razón por la que es preciso haber implementado la fase de identificación de idiomas) y se empleará el siguiente servicio web de Yahoo: http://developer.yahoo.com/search/conte ... ction.html. Los términos obtenidos se almacenarán como un campo más dentro del documento XML pero siempre asociados al texto original del que procedan.

Ni que decir tiene que, al igual que el resto del proyecto, este proceso de extracción de palabras clave también debe funcionar de manera automática (esto es, con poca o nula supervisión humana).



Next