Blog - (Art�culo) M�s apuntes sobre "Automatic Identification of Word Translations from Unrelated English and German Corpora" < Daniel Gayo-Avello @ the University of Oviedo

(Artículo) Más apuntes sobre "Automatic Identification of Word Translations from Unrelated English and German Corpora"

Desarrollo de corpora comparables
Monday, May 7, 2007, 12:27 PM

Ya he comentado en una entrada anterior la técnica de Rapp (1999) para obtener biléxicos a partir de un corpus comparable; en esa entrada repasaba los primeros pasos del algoritmo que involucraban, básicamente, determinar el número de co-ocurrencias de cada posible par de términos de un corpus (empleando ventanas de un tamaño fijo y relativamente pequeño).

Jaime ha avanzado bastante en la implementación del algoritmo y ya dispone de código para contar dichas co-ocurrencias, ahora toca dar un paso más y calcular para dichos pares el estadístico seleccionado por Rapp: el log-likelihood ratio.

La ecuación empleada por Rapp puede consultarse en la página 522 del artículo original; dicha ecuación requiere el cálculo de los siguientes valores: el contador de co-ocurrencias de las palabras A y B, el número de apariciones de la palabra A en el corpus, el número de apariciones de la palabra B en el corpus y el número total de palabras en el corpus.

A fin de facilitar la comprensión de todo este proceso he preparado un archivo que contiene un texto, la lista de palabras del mismo y una hoja de cálculo en la que se ha calculado el valor del estadístico para unas parejas de muestra. De cara a obtener resultados comparables hay que tener en cuenta algunas cosas: (1) el tamaño de ventana empleado para los ejemplos ha sido 4, (2) se ha empleado base 10 en el cálculo de los logaritmos -un cambio de base modificaría los valores numéricos pero no la ordenación de los pares- y (3) para evitar engorrosas divisiones por cero y valores infinitos se sustituyen los posibles valores nulos por un epsilon que se ha fijado en 0,001.

Actualización (16/05/2007): Jaime me ha señalado que hay una errata en la hoja de cálculo del archivo de muestra. El término k22 de la ecuación no es el tamaño del corpus sino el tamaño del corpus restándole la frecuencia de aparición de los términos A y B. El archivo ya está corregido.

Back Next

Ad verba per numeros