Ad verba per numeros

Identificación de idioma
Monday, May 7, 2007, 08:50 AM
David ya ha terminado de codificar los algoritmos necesarios para convertir los textos de "entrenamiento" y de muestra en vectores de n-gramas así como las distintas medidas de similitud por lo que ya puede pasar a la siguiente fase.

En su caso es relativamente sencillo puesto que sólo hay un texto de entramiento por idioma y codificación; en consecuencia, cada texto desconocido debe compararse con todos los textos de entrenamiento y, por el momento, retornarse como resultado una lista de idiomas-codificaciones junto con la similitud, es decir, algo similar a esta figura:

zh-Hans-GB	0.9854
zh-Hant-HZ 0.9453
ja-ShiftJIS 0.7433
...
Por supuesto, el servicio deberá ofrecer las distintas medidas implementadas; más adelante, se determinará cuál proporciona mejores resultados y se ofrecerá esa como método por defecto.

(Continuará...)



Back Next