Ad verba per numeros

Segmentación en pasajes, Hojas de ruta
Tuesday, July 17, 2007, 09:51 AM
Algunos de vosotros ya habéis terminado de implementar el método de Good-Turing para obtener probabilidades a partir de frecuencias relativas. Para la siguiente tarea deberéis aprovechar/integrar el código desarrollados hasta el momento para implementar un nuevo prototipo que hará lo siguiente:
  1. Recibirá un texto plano.
  2. Separará el texto anterior en sentencias y éstas en frases.
  3. Calculará la frecuencia relativa de los n-gramas dentro del texto completo.
  4. Empleando Good-Turing smoothing estimará las probabilidades para dichos n-gramas.
  5. Implementará los estadísticos de ponderación que aparecen en la Figura 96 de la página 148 de este documento.
Los parámetros que recibirá dicho prototipo serán: el texto a procesar, el tamaño de n-grama y el estadístico a aplicar (SI, SCP, chi2, Dice o infogain).

Por el momento la salida será un listado de n-gramas con sus correspondientes pesos.

Continuará...



Back Next