Ad verba per numeros

Segmentacin en pasajes, Hojas de ruta
Monday, April 7, 2008, 07:06 PM
Una vez se han implementado los distintos estadsticos de ponderacin que mencionaba en la entrada anterior deberais disponer de un prototipo que recibe texto plano, lo separa en sentencias y frases y calcula el "peso" de cada n-grama.

Ahora habra que construir para cada sentencia un vector formado por los n-gramas de dicha sentencia y sus correspondientes pesos. Tambin sern necesarios uno o ms mtodos para comparar dichos vectores. Para realizar esta comparacin deberis implementar las medidas de similitud que se describen entre las pginas 63 y 67 de este documento.

Al finalizar esta tarea debera ser posible calcular la similitud entre cualquier par de sentencias cualesquiera de un texto dado (un valor real comprendido entre 0 y 1).



Next