Wednesday, February 14, 2007, 03:35 PM
Dos descubrimientos casuales que acabo de hacer: (1) El proyecto CLEANEVAL y (2) BootCaT (Simple Utilities for Bootstrapping Corpora and Terms from the Web).

En sus propias palabras:

CLEANEVAL is a shared task and competitive evaluation on the topic of cleaning arbitrary web pages, with the goal of preparing web data for use as a corpus, for linguistic and language technology research and development.

The perl scripts included in the BootCaT toolkit implement an iterative procedure to bootstrap specialized corpora and terms from the web, requiring only a list of "seeds" (terms that are expected to be typical of the domain of interest) as input.

El primero es un congreso/"competici√≥n" similar a DUC, TREC o CLEF que se celebrar√° por primera vez en agosto de 2007. Una vez finalice ser√° interesante ver qu√© t√©cnicas son las m√°s adecuadas para limpiar p√°ginas web y, probablemente, surja alg√ļn PFC a partir de los art√≠culos m√°s prometedores.

El segundo es un toolkit para obtener de la Web corpora (colecciones de documentos) orientados a un tema concreto y ya tengo una idea bastante clara para un próximo proyecto... Seguiré informando.

