Ad verba per numeros

Identificación de idioma
Tuesday, May 8, 2007, 04:33 PM
Un aspecto relevante en los proyectos de identificación de idiomas es la evaluación del sistema construido, es decir, cómo de bien identifica los idiomas de los textos que recibe. Para ello debe contarse con suficientes textos de muestra de varios idiomas que serán enviados al servicio web y, posteriormente, se determinará si la identificación ha sido correcta o no y se calculará un valor que nos informará del rendimiento del sistema.

Hace algún tiempo preparé una colección con ese fin que podéis descargar de mi página web. Contiene 1500 artículos tomados al azar de cinco grupos soc.culture.*: basque, catalan, french, galiza y german.

Como se puede suponer la idea era disponer de textos en vasco, catalán, francés, gallego y alemán además de, probablemente, castellano. Lamentablemente, la colección contiene bastante spam y se mezclan varios idiomas de tal modo que los idiomas disponibles en realidad son: alemán, castellano, catalán, francés, gallego, inglés, italiano y vasco.

A esto se une la dificultad de que los artículos no tienen información asociada sobre el idioma "real" en que están escritos, sólo el grupo en el que fueron publicados y, además, no se han eliminado las cabeceras (véase la siguiente figura).

From: "miss calm" <[email protected]>
Newsgroups: soc.culture.german
Subject: A Great And Brave President
Date: Wed, 26 Nov 2003 19:11:10 -0000
Lines: 14
Message-ID: <[email protected]>
NNTP-Posting-Host: 217.135.36.114
X-Trace: newsg3.svr.pol.co.uk 1069960299 30843 217.135.36.114 (27 Nov 2003 19:11:39 GMT)
NNTP-Posting-Date: 27 Nov 2003 19:11:39 GMT
X-Complaints-To: [email protected]
X-Priority: 3
X-MSMail-Priority: Normal
X-Newsreader: Microsoft Outlook Express 6.00.2600.0000
X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2600.0000


Despite the ban on aircraft flying into Baghdad after the downing of the DHL
carrier last week. President George. W. Bush led from the Front by risking
his life to visit the troops on Thanksgiving, flying in at the time of
maximum danger to aircraft over the city.
Along with a message of support and thanks to the troops for their defence
of their country and service to the Iraqi people, the President reconfirmed
the Coalition and Americas promise to do all in his power to bring
democracy, freedom and prosperity to the liberated people of Iraq.
Good People who for many years despaired at a US foreign policy that
supported dictators and oppression are proud and glad that this fine Leader
of the Free World is pledged to bring democracy to it's four corners.

Así pues, si alguno de vosotros ya tiene el servicio web terminado y parece que funciona bien puede pasar a la que será la fase final del proyecto y evaluarlo con esta colección. Debido a los problemas descritos antes el procedimiento sería más o menos el que sigue:
  1. Enviar uno a uno todos los artículos al servicio web para su identificación almacenándolos en un directorio correspondiente al idioma identificado (p.ej. el artículo de la figura es soc.culture.german.1500 y sería almacenado en un directorio para el idioma inglés).
  2. Aquellos artículos en los que coincida el idioma identificado con el del grupo (p.ej. soc.culture.german.1498) pueden suponerse correctamente identificados :).
  3. Aquellos artículos en los que el idioma identificado no se corresponda con el idioma "teórico" del grupo deberán examinarse manualmente :(.
  4. Al finalizar el proceso se dispondría de grupos de artículos en los que, bien de manera automática o bien de manera manual, se habrá determinado el idioma en que están escritos.
  5. En ese momento deberías volver a hablar conmigo


Next