Ad verba per numeros

Segmentación en pasajes, Hojas de ruta
Friday, June 1, 2007, 07:18 AM
En la anterior hoja de ruta os pedía que implementarais un prototipo para separar un texto en sentencias y frases y, después, calcular la frecuencia absoluta de los n-gramas que apareciesen en el mismo.

Si recordáis los artículos que habéis leído lo que nos interesa no es la frecuencia absoluta, ni siquiera la relativa, sino la probabilidad de que aparezca cada n-grama. Para calcular, en realidad estimar, dicha probabilidad debéis en primer lugar calcular la frecuencia relativa (eso es fácil) y luego aplicar una técnica de smoothing para estimar la probabilidad de cada n-grama.

Existen varias técnicas de suavizado, vosotros vais a utilizar Good-Turing que no es la mejor pero os resultará relativamente sencilla de entender y utilizar. Recursos que os serán de utilidad:

En resumen, esta hoja de ruta es muy simple: modificar el prototipo actual para calcular la probabilidad de los n-gramas de caracteres del texto.

(Continuará...)



Next