Ad verba per numeros

Hojas de ruta
Friday, April 11, 2008, 11:24 AM
La primera tarea consiste en implementar uno o más scripts que permitan obtener a partir de este subconjunto de la Wikipedia las categorías así como las categorías asociadas a cada artículo. Creo que la mejor forma de mantener dicha información sería mediante una base de datos (os recomiendo MySQL). En una tabla se almacenaría la asociación entre título de artículo y categoría y en otra se almacenarían los nombres de las categorías, los términos multipalabra, los adjetivos asociados (de existir) e información sobre el synset de Wordnet asociado a dicha categoría. Ni que decir tiene que el dieño de la base de datos va a ser importante (aunque no tiene por qué ser definitivo lo que se haga ahora). Por otro lado, en la segunda tabla de momento sólo se almacenarían los nombres de las categorías.

Para generar esos datos creo que podría hacerse en dos fases: en una primera se generarían archivos de texto plano a partir de la Wikipedia con la información necesaria y en una segunda se importarían dicha información en la base de datos. De este modo sería relativamente sencillo tener la información en un formato fácil de compartir. En consecuencia también habría que desarrollar los correspondientes scripts para exportar la información.

Documentad lo que vayáis haciendo en vuestro wiki y comentad las novedades, avances, dudas o problemas en vuestro blog.



Back Next