Ad verba per numeros

Most Recent Entries

Archives

2023
- March
2022
- March
2021
- May
- January
2019
- July
- March
2016
- January
2014
- October
- June
- May
2013
- December
- September
- August
- April
- January
2012
- November
- June
- May
2011
- October
- September
- July
- June
- May
- February
- January
2010
- December
- June
- April
- March
- February
2009
- December
- November
- September
- August
- July
- June
- April
- March
- January
2008
- October
- September
- August
- July
- June
- May
- April
- March
- February
- January
2007
- December
- November
- October
- September
- July
- June
- May
  - (Hot!) Aplicaciones AJAX offline - Google Gears
    05/31/07
  - Nueva entrada en la serie de apuntes sobre Rapp (1999)
    05/28/07
  - (Miscel�nea) M�s CLEANEVAL
    05/28/07
  - (PLN) Separaci�n de sentencias
    05/17/07
  - M�s evaluaci�n...
    05/11/07
  - Lecturas de Junio
    05/10/07
  - (Twitter) PHP, REST, cURL y Snoopy
    05/10/07
  - Evaluaci�n de sistemas de identificaci�n de idioma
    05/08/07
  - (Art�culo) M�s apuntes sobre "Automatic Identification of Word Translations from Unrelated English and German Corpora"
    05/07/07
  - (Breves) �C�mo arreglar XML mal formado?
    05/07/07
  - (Integraci�n de documentos) Hoja de ruta (Episodio II)
    05/07/07
  - (Twitter) Informaci�n para el cap�tulo introductorio
    05/07/07
  - (Corpora paralelos) Hoja de ruta (Episodio III)
    05/07/07
  - (Identificaci�n de idioma) Hoja de ruta (Episodio III)
    05/07/07
- April
- March
- February
- January
2006
- December

(Identificación de idioma) Hoja de ruta (Episodio III)

Identificación de idioma
Monday, May 7, 2007, 08:50 AM

David ya ha terminado de codificar los algoritmos necesarios para convertir los textos de "entrenamiento" y de muestra en vectores de n-gramas así como las distintas medidas de similitud por lo que ya puede pasar a la siguiente fase.

En su caso es relativamente sencillo puesto que sólo hay un texto de entramiento por idioma y codificación; en consecuencia, cada texto desconocido debe compararse con todos los textos de entrenamiento y, por el momento, retornarse como resultado una lista de idiomas-codificaciones junto con la similitud, es decir, algo similar a esta figura:

zh-Hans-GB	0.9854
zh-Hant-HZ	0.9453
ja-ShiftJIS	0.7433
...

Por supuesto, el servicio deberá ofrecer las distintas medidas implementadas; más adelante, se determinará cuál proporciona mejores resultados y se ofrecerá esa como método por defecto.

(Continuará...)

Back Next