Ad verba per numeros

Parametrización mediante AG, Segmentación de Chino
Thursday, January 18, 2007, 01:40 AM
Alguno de vosotros está trabajando en el problema de la segmentación de textos escritos en chino. La idea básica supone procesar grandes (más bien enormes) cantidades de texto sin segmentar para encontrar por medios estadísticos patrones que, probablemente, se correspondan con "palabras" chinas. Una vez encontradas se construiría un diccionario que permitiría la segmentación de nuevos textos.

Obviamente el problema fundamental es la complejidad temporal que hace que los tiempos de ejecución sean laaaaargos y que aconseja el desarrollo de la aplicación de manera distribuida.

Otros compañeros están trabajando con AGATA (el framework para algoritmos genéticos) y, aunque no es seguro, existe la posibilidad de que sea necesario adaptarlo para que también opere de forma distribuida...

Pues bien, hadoop puede ser justo lo que necesitamos y, además, está escrito en Java. Así que, tomad nota y, cuando podáis, echadle un vistazo.



Back Next