Ad verba per numeros

Corpora paralelos UE, Hojas de ruta
Tuesday, October 23, 2007, 10:48 AM
Uno de los objetivos de este proyecto es disponer de material en varios idiomas que permita entrenar un sistema de extraccin de palabras clave. En la actualidad existen algunos sistemas que permiten extraer los trminos ms relevantes para textos ingleses pero no se dispone del equivalente para otros idiomas. En esta versin del proyecto nos conformaremos con obtener dichos trminos para los documentos en ingls y, en todo caso, se estudiar la posibilidad de obtener "traducciones" para los mismos por otros medios para el resto de idiomas.

Esta extraccin debe realizarse nicamente para los textos en ingls (razn por la que es preciso haber implementado la fase de identificacin de idiomas) y se emplear el siguiente servicio web de Yahoo: http://developer.yahoo.com/search/conte ... ction.html. Los trminos obtenidos se almacenarn como un campo ms dentro del documento XML pero siempre asociados al texto original del que procedan.

Ni que decir tiene que, al igual que el resto del proyecto, este proceso de extraccin de palabras clave tambin debe funcionar de manera automtica (esto es, con poca o nula supervisin humana).



Next