Ad verba per numeros
Aquà va la primera hoja de ruta para el proyecto de obtención de información turÃstica semiestructurada.Uno de los aspectos que debe contemplar el proyecto es disponer de información geolocalizada para puntos de interés dentro de una entidad geográfica (p.ej. una ciudad, una comarca, etc.) Dicha información podrÃa introducirse manualmente o tratar de obtenerse de manera automática. Mi idea va en esta última lÃnea y lo que pretende es obtener parte de la información de la Wikipedia y cruzarla con los datos disponibles en flickr. Dependiendo de la importancia del lugar se dispondrá de una cantidad de información mayor o menor pero eso no es lo realmente importante, sino la posibilidad de obtenerla de un modo semiautomático y cruzarla con éxito.En esta primera fase se deben realizar varios prototipos que, eventualmente, se fusionarÃan en un solo software que obtendrÃa para un input simple como el nombre de un lugar (p.ej.
¿Qué lenguaje utilizar?En realidad eso es irrelevante; no obstante, si se desea avanzar de forma rápida recomendarÃa un lenguaje de scripting (p.ej. PHP) y la utilización de la biblioteca cURL (en PHP está disponible). De este modo se pueden completar fases muy rápidamente y aunque en la fase de paso a producción no se utilicen los scripts sà se emplearán los datos elaborados y lo que hayamos aprendido resultará tremendamente valioso.
Back
Paris
) un listado de elementos de interés turÃstico, geolocalizados, etiquetados y ponderados. Inicialmente habrÃa que centrarse en la obtención de los nombres y coordenadas de los lugares y esto se tratará de hacer por dos vÃas: (1) Wikipedia en inglés y (2) flickr. En esta entrada tan sólo describiré los aspectos relativos al uso de la Wikipedia.Para el prototipo se explotará la Wikipedia de manera online (algo que no está permitido) a fin de determinar las posibilidades que ofrece, para una versión de producción serÃa necesario descargar los volcados de la base de datos y atacar dicha base de datos local; de todos modos, la organización de la información y el modo de obtener lo que nos interesa será similar. Como sabréis los artÃculos de la Wikipedia tienden a organizarse en categorÃas de tal modo que es posible presuponer la existencia de páginas como las siguientes:http://en.wikipedia.org/wiki/Category:OviedoAl explorar algunas de esas categorÃas nos percatamos de la existencia, en muchas ocasiones, de subcategorÃas, entre ellas algunas muy interesantes como
http://en.wikipedia.org/wiki/Category:Lausanne
http://en.wikipedia.org/wiki/Category:New_York
Buildings_and_structures_in_*
, Squares_in_*
, Museums_in_*
, etc. AsÃ, algunos enlaces disponibles en la Wikipedia serÃan:http://en.wikipedia.org/wiki/Category:B ... _in_PragueUn punto importante serÃa la construcción de un listado de "patrones" susceptibles de ser explorados para localizar artÃculos que, probablemente, tuviesen información susceptible de estar geolocalizada en la Wikipedia o en otro lugar.De hecho, algunos artÃculos de la Wikipedia disponen de información geográfica que se muestra en algún punto del propio artÃculo; por ejemplo, los siguientes artÃculos ofrecen la latitud y la longitud del lugar:
http://en.wikipedia.org/wiki/Category:Squares_in_Berlin
http://en.wikipedia.org/wiki/Category:Streets_in_Madrid
http://en.wikipedia.org/wiki/Category:C ... _in_London
http://en.wikipedia.org/wiki/Category:Museums_in_Rome
http://en.wikipedia.org/wiki/Category:G ... _of_London
http://en.wikipedia.org/wiki/Category:V ... ns_in_Rome
http://en.wikipedia.org/wiki/Category:Lists_of_places
http://en.wikipedia.org/wiki/Capitoline_MuseumsAsÃ, podrÃa obtenerse una lista con la siguiente información:
http://en.wikipedia.org/wiki/Esposizion ... rsale_Roma
http://en.wikipedia.org/wiki/Vatican_Museums
Capitoline Museums Coordinates: 41°53'35"N 12°28'57"EObservad cómo usan notaciones diferentes y que la información aparece en distintos lugares para cada artÃculo.Un punto a favor del uso de la Wikipedia es que al mismo tiempo que se localizan lugares de interés (y tal vez coordenadas) nos estamos haciendo con información textual y gráfica de la cual se puede disponer libremente siempre y cuando se respete la licencia, o lo que es lo mismo, que la información producida se distribuya bajo la GFDL.¿Cuál serÃa el trabajo ahora?En primer lugar elaborar manualmente una lista de patrones de categorÃas lo más extensa posible y, después elaborar una lista de ciudades.Ambas listas serÃan utilizadas con un primer prototipo que las combinarÃa, explorarÃa y localizarÃa nuevos patrones candidatos. Por ejemplo, si un patrón fuese
Esposizione Universale Roma Coordinates: 41.834947º 12.471436º
Vatican Museums Coordinates: 41º54'23"N 12º27'16"E
Category:Geography_of_
y las ciudades son London
, Rome
, Paris
y Lisbon
deberÃan explorarse las categorÃas Geography_of_London
, Geography_of_Rome
, ..., Geography_of_Lisbon
y eso darÃa lugar a patrones como los siguientes extraÃdos del nombre de las subcategorÃas pertenecientes a las categorÃas anteriores.*_postcode_districts
Arrondissements_of_*
Districts_of_*
Hills_of_
Parks_and_open_spaces_in_*
Rioni_of_
Topography_of_ancient_
Villages_in_*
Cuando dicho prototipo finalizase habrÃa que filtrar los patrones propuestos, quedarte con los más adecuados y, sólo para los nuevos descubrimientos, volver a iterar. Tras unos dÃas de iteraciones, filtrados y repeticiones se tendrÃa una lista tremendamente completa de categorÃas (esto es etiquetas) que identificarÃan artÃculos relativos a lugares fÃsicos.El siguiente prototipo a realizar emplearÃa esta lista final de etiquetas, recibirÃa como input el nombre de una entidad geográfica (p.ej. Asturias, Oviedo, Berlin, Prague, etc.), la cruzarÃa con todas las categorÃas disponibles, las explorarÃa, descubrirÃa categorÃas nuevas y especÃficas para dicho lugar y procederÃa a anotar las URLs de todos los artÃculos pertenecientes a cualquiera de las categorÃas personalizadas para el lugar en cuestión.Y hasta aquà puedo leer 
Back