Ad verba per numeros
Hojas de ruta
Friday, April 11, 2008, 09:24 AM
La primera tarea consiste en implementar uno o más scripts que permitan obtener a partir de este subconjunto de la Wikipedia las categorÃas asà como las categorÃas asociadas a cada artÃculo. Creo que la mejor forma de mantener dicha información serÃa mediante una base de datos (os recomiendo MySQL). En una tabla se almacenarÃa la asociación entre tÃtulo de artÃculo y categorÃa y en otra se almacenarÃan los nombres de las categorÃas, los términos multipalabra, los adjetivos asociados (de existir) e información sobre el synset de Wordnet asociado a dicha categorÃa. Ni que decir tiene que el dieño de la base de datos va a ser importante (aunque no tiene por qué ser definitivo lo que se haga ahora). Por otro lado, en la segunda tabla de momento sólo se almacenarÃan los nombres de las categorÃas.Para generar esos datos creo que podrÃa hacerse en dos fases: en una primera se generarÃan archivos de texto plano a partir de la Wikipedia con la información necesaria y en una segunda se importarÃan dicha información en la base de datos. De este modo serÃa relativamente sencillo tener la información en un formato fácil de compartir. En consecuencia también habrÃa que desarrollar los correspondientes scripts para exportar la información.Documentad lo que vayáis haciendo en vuestro wiki y comentad las novedades, avances, dudas o problemas en vuestro blog.Friday, April 11, 2008, 09:24 AM
Back Next