Ad verba per numeros

Integración de documentos, Hojas de ruta
Thursday, April 10, 2008, 12:06 PM
Si se ha completado la última hoja de ruta debería disponerse de código (incluyo el uso de TextTiling) para hacer lo siguiente:
  • Subir varios documentos a un directorio.
  • Segmentar cada texto en pasajes (mediante TextTiling).
  • Calcular la significatividad de cada n-grama del texto completo de todos los documentos con varios estadísticos.
Ahora lo que habría que hacer son dos cosas:
  1. Asignar a cada pasaje obtenido con TextTiling un vector de n-gramas con sus pesos. Básicamente consistiría en recorrer el texto del pasaje, obtener los n-gramas que aparecen en él y luego anotar el peso que dichos n-gramas tienen en base a lo que se hizo en la fase anterior.
  2. Implementar una medida de similitud basada en dichos vectores de n-gramas. Dicha medida nos permitirá determinar qué pasajes se parecen más y, en consecuencia, se utilizarán como "piezas intercambiables".
Para realizar la comparación de vectores se deben implementar las medidas de similitud que se describen entre las páginas 63 y 67 de este documento.


Al finalizar esta tarea debería ser posible calcular la similitud entre cualquier par de pasajes cualesquiera de un conjunto de documentos dados (un valor real comprendido entre 0 y 1).



Next