Ad verba per numeros

Segmentación de Chino
Wednesday, February 21, 2007, 09:45 AM
Un par de vosotros estáis trabajando en el problema de obtener listas de palabras a partir de una colección entre muy, muy grande y enorme de texto chino [1].

Como os dije, el algoritmo no es complejo y, además, es fácilmente paralelizable por lo que habíamos hablado de estudiar formas de implementar una solución que se ejecute en un cluster de ordenadores aprovechando, quizás, las horas muertas de algún laboratorio de la EUITIO.

Hace un mes apuntaba a hadoop como una posible solución y ahora encuentro, vía Geeking with Greg, un curso que os viene como anillo al dedo pero que se imparte en la Universidad de Washington :( No obstante, lo fundamental son las lecturas, transparencias, wikis y tutoriales y eso está disponible para todo el mundo :) Así pues, estudiadlo con interés.

[1] ¿Por qué es un problema encontrar palabras en un texto chino?



Back Next