Ad verba per numeros

Segmentación en pasajes, Hojas de ruta
Tuesday, July 17, 2007, 09:51 AM
Algunos de vosotros ya habéis terminado de implementar el método de Good-Turing para obtener probabilidades a partir de frecuencias relativas. Para la siguiente tarea deberéis aprovechar/integrar el código desarrollados hasta el momento para implementar un nuevo prototipo que hará lo siguiente:
  1. Recibir√° un texto plano.
  2. Separará el texto anterior en sentencias y éstas en frases.
  3. Calcular√° la frecuencia relativa de los n-gramas dentro del texto completo.
  4. Empleando Good-Turing smoothing estimar√° las probabilidades para dichos n-gramas.
  5. Implementará los estadísticos de ponderación que aparecen en la Figura 96 de la página 148 de este documento.
Los par√°metros que recibir√° dicho prototipo ser√°n: el texto a procesar, el tama√Īo de n-grama y el estad√≠stico a aplicar (SI, SCP, chi2, Dice o infogain).

Por el momento la salida ser√° un listado de n-gramas con sus correspondientes pesos.

Continuar√°...



Back Next