Ad verba per numeros

Desarrollo de corpora comparables, Hojas de ruta
Tuesday, January 23, 2007, 03:12 PM
Recientemente se puso en marcha un proyecto que tiene como objetivo ayudar a la compilación de corpora comparables, es decir, colecciones de documentos en varios idiomas donde el número de documentos y términos son similares para todos los idiomas y la temática es homogénea.

Lo cierto es que lo que perseguimos en realidad es que los corpora sean casi alineados, esto es, no se pretende que los documentos sean traducciones pero sí que documentos "homólogos" en dos lenguajes L1 y L2 traten el mismo tema. Para ello vamos a explotar el sitio web de la BBC y si todo marcha como esperamos se publicarán periódicamente colecciones de parejas de URLs (al estilo del corpus paralelo inglés-japonés de John Fry).

Ciertamente la implementación de un método que permita identificar parejas de documentos similares será un reto importante; sin embargo, para empezar necesitamos colecciones de documentos y para eso se necesita un robot. Así pues, aquí va la lista de tareas iniciales:

Tarea 1: Determinar el tercer idioma con el que se va a trabajar (recordemos que uno debía ser castellano y otro inglés). ¿Será finalmente el árabe?

Tarea 2: Estudiar Nutch y analizar otras posibilidades. Documentar en el wiki lo que se haya aprendido, tomar una decisión sobre el robot a emplear y justificarla.

Tarea 3: Construir un prototipo que emplee el robot seleccionado para obtener unas decenas de documentos del sitio web de la BBC teniendo en cuenta: (1) todos los documentos deben pertenecer al mismo idioma (atención a las rutas) y (2) queremos que sean versiones para imprimir (compárense [1] y [2]).

Tarea 4: Documentar en el wiki y en el blog el trabajo realizado y solicitar al tutor la revisión del mismo.

(Continuará...)



Back