Ad verba per numeros

Técnicas PLN/NLP
Friday, June 1, 2007, 07:32 AM
En la entrada anterior mencioné las técnicas de suavizado y señalé que Good-Turing es sencilla pero no es la que proporciona mejores resultados; el siguiente artículo compara varias técnicas y explica por qué Kneser-Ney es la mejor:

Chen, S.F. y Goodman, J.T. 1998, "An Empirical Study of Smoothing Techniques for Language Modeling", informe técnico TR-10-98.

Y este otro proporciona una implementación en Perl para dicha técnica (pp. 65 y 66):

Goodman, J.T. 2001. "A Bit of Progress in Language Modeling", informe técnico MSR-TR-2001-72.
 

Debo señalar, no obstante, que en ambos artículos los n-gramas son de palabras y no de caracteres puesto que el objetivo último es obtener modelos estadísticos del lenguaje. En cuanto tenga un momento trataré de proporcionar una adaptación de Kneser-Ney para estimar la probabilidad de n-gramas de caracteres.



Back Next