Ad verba per numeros

Identificaci贸n de idioma
Monday, May 7, 2007, 10:50 AM
David ya ha terminado de codificar los algoritmos necesarios para convertir los textos de "entrenamiento" y de muestra en vectores de n-gramas as铆 como las distintas medidas de similitud por lo que ya puede pasar a la siguiente fase.

En su caso es relativamente sencillo puesto que s贸lo hay un texto de entramiento por idioma y codificaci贸n; en consecuencia, cada texto desconocido debe compararse con todos los textos de entrenamiento y, por el momento, retornarse como resultado una lista de idiomas-codificaciones junto con la similitud, es decir, algo similar a esta figura:

zh-Hans-GB	0.9854
zh-Hant-HZ 0.9453
ja-ShiftJIS 0.7433
...
Por supuesto, el servicio deber谩 ofrecer las distintas medidas implementadas; m谩s adelante, se determinar谩 cu谩l proporciona mejores resultados y se ofrecer谩 esa como m茅todo por defecto.

(Continuar谩...)



Back Next