Ad verba per numeros

Última hora
Tuesday, March 11, 2008, 01:05 PM
Ana ha desarrollado un proyecto para la generación de redes asociativas a partir de texto plano. Uno de los experimentos consistió en generar una red a partir de los artículos de la Wikipedia relacionados con Pablo Picasso. Dicha red consiste en varios cientos de miles de parejas que indican el "peso" de la asociación existente entre ambos; a continuación se muestran algunos de los términos más asociados con PICASSO:
PICASSO	BRAS		1,50E+09
PICASSO BRAQUE 1,31E+09
PICASSO GRIMALDI 1,11E+09
PICASSO WEEPING 0,65298327
Como se puede ver las asociaciones son entre términos (palabras) y no entre conceptos; sin embargo, resulta relativamente sencillo encontrar los conceptos correspondientes empleando la propia Wikipedia (después de todo los conceptos aparecerán bien como títulos de artículos o en el texto de los enlaces a otros artículos):
Femme aux Bras Croisés
Georges Braque
Château Grimaldi (Antibes)
The Weeping Woman
En consecuencia, no debería ser demasiado complejo desarrollar uno o más scripts que procesen la información disponible (en la red asociativa y en la Wikipedia) para obtener los listados de conceptos, añadiéndoles metainformación como: imágenes, categorías de la Wikipedia a la que pertenece el artículo o snippets informativos. Por ejemplo, para el término BRAS y sus correspondientes asociaciones deberíamos localizar algo como:
Femme aux Bras Croisés
http://en.wikipedia.org/wiki/Femme_aux_ ... ois%C3%A9s
Femme aux Bras Croisés (Woman with Folded Arms), is a painting by Pablo Picasso done in 1902 during his Blue Period.
http://upload.wikimedia.org/wikipedia/e ... icasso.jpg
Después, toda esa información podría visualizarse en algo similar a lo que se muestra a continuación.

Algunas de las ideas que se exploran en la imagen son, además de visualizar el grafo y permitir la exploración visual, poder determinar qué categorías de la Wikipedia van a utilizarse como filtros; por ejemplo, en la imagen sólo aparecen cuadros porque se utilizó como filtro la categoría Pablo Picasso paintings. También podría resultar interesante la posibilidad de que los usuarios añadiesen nueva información (nuevas categorías, sinóminos, etiquetas para los conceptos o incluso etiquetas para los vínculos entre conceptos o para subgrafos completos).

Ideas similares que me han gustado son Taglines de Yahoo o muchas de las que han desarrollado en Bestiario.

En resumen, ofrezco un trabajo fin de carrera relacionado con la visualización de grandes volúmenes de datos vinculados entre sí; el grueso de los datos están ya disponibles aunque será necesario enriquecerlos explotando la Wikipedia. Por otro lado aunque la visualización (probablemente mediante Flash) y los aspectos estéticos serán vitales no menos importante serán cuestiones como el diseño de la base de datos, el rendimiento o incluso la incorporación de tecnologías semánticas. Aún no he decidido si el proyecto se realizará de manera individual o en equipo aunque esto último sería bastante razonable. Aquellos de vosotros que estéis interesados en participar en el proyecto poneros en contacto conmigo.

P.D. La idea de utilizar precisamente Picasso la tomé prestada de una presentación de Hugo Zaragoza (Yahoo) en la que describió un proyecto en el que se anotó semánticamente una porción de la Wikipedia y que sirvió, entre otras cosas, para generar rankings de entidades (p.ej. personas relacionadas con Picasso).



Back Next