Ad verba per numeros

Corpora paralelos UE, Hojas de ruta
Tuesday, October 23, 2007, 10:48 AM
Uno de los objetivos de este proyecto es disponer de material en varios idiomas que permita entrenar un sistema de extracci贸n de palabras clave. En la actualidad existen algunos sistemas que permiten extraer los t茅rminos m谩s relevantes para textos ingleses pero no se dispone del equivalente para otros idiomas. En esta versi贸n del proyecto nos conformaremos con obtener dichos t茅rminos para los documentos en ingl茅s y, en todo caso, se estudiar谩 la posibilidad de obtener "traducciones" para los mismos por otros medios para el resto de idiomas.

Esta extracci贸n debe realizarse 煤nicamente para los textos en ingl茅s (raz贸n por la que es preciso haber implementado la fase de identificaci贸n de idiomas) y se emplear谩 el siguiente servicio web de Yahoo: http://developer.yahoo.com/search/conte ... ction.html. Los t茅rminos obtenidos se almacenar谩n como un campo m谩s dentro del documento XML pero siempre asociados al texto original del que procedan.

Ni que decir tiene que, al igual que el resto del proyecto, este proceso de extracci贸n de palabras clave tambi茅n debe funcionar de manera autom谩tica (esto es, con poca o nula supervisi贸n humana).



Back Next