Ad verba per numeros

Most Recent Entries

Archives

2023
- March
2022
- March
2021
- May
- January
2019
- July
- March
2016
- January
2014
- October
- June
- May
2013
- December
- September
- August
- April
- January
2012
- November
- June
- May
2011
- October
- September
- July
- June
- May
- February
- January
2010
- December
- June
- April
- March
- February
2009
- December
- November
- September
- August
- July
- June
- April
- March
- January
2008
- October
- September
- August
- July
- June
- May
- April
- March
- February
- January
2007
- December
- November
- October
  - B�squeda por similitud y m�s...
    10/30/07
  - (Corpora paralelos) Hoja de ruta (Episodio V)
    10/23/07
  - APML - Attention Profiling Mark-up Language
    10/19/07
- September
- July
- June
- May
- April
- March
- February
- January
2006
- December

Artículos
Tuesday, October 30, 2007, 08:09 AM

Vía Geeking with Greg llego a una interesante charla de Yury Lifshits acerca de la búsqueda de elementos similares a un item de partida (similarity search).

Una de las referencias que más me ha llamado la atención es un artículo de Hoffmann, Lifshits y Nowotka (2007) en el cual describen el Magic Level Theorem que establece cuales son las probabilidades respectivas de: (1) la existencia de al menos un documento en la base de datos que contenga alguno de los términos de la consulta (any match) y (2) la existencia de al menos un documento que contenga un número determinado de los "mejores" términos de la consulta (prefix match).

Es preciso señalar que dicho artículo supone que tanto los documentos como las consultas se construyen tomando términos de manera independiente y con una probabilidad acorde a una distribución de Zipf. Esto resulta muy razonable si tanto las consultas como los documentos son textos de naturaleza similar; sin embargo, si las consultas son textos muy cortos (estoy pensando en el contexto de los buscadores Web) es, tal vez, una simplificación arriesgada (aunque podría estudiarse).

Sin, en principio, relación con el anterior también me han llegado dos referencias a las que aún no he podido echar más que un vistazo rápido pero que tienen buena pinta:

Globerson, A. et al. 2007. "Euclidean Embedding of Co-occurrence Data", Journal of Machine Learning Research 8 (2007), pp. 2265-2295

Lebanon, G. et al. 2007. "The Locally Weighted Bag of Words Framework for Document Representation", Journal of Machine Learning Research 8 (2007) pp. 2405-2441

Back Next