Ad verba per numeros

Most Recent Entries

Archives

2023
- March
2022
- March
2021
- May
- January
2019
- July
- March
2016
- January
2014
- October
- June
- May
2013
- December
- September
- August
- April
- January
2012
- November
- June
- May
2011
- October
- September
- July
- June
- May
- February
- January
2010
- December
- June
- April
- March
- February
2009
- December
- November
- September
- August
- July
- June
- April
- March
- January
2008
- October
- September
- August
- July
- June
- May
- April
- March
- February
- January
2007
- December
- November
- October
  - B�squeda por similitud y m�s...
    10/30/07
  - (Corpora paralelos) Hoja de ruta (Episodio V)
    10/23/07
  - APML - Attention Profiling Mark-up Language
    10/19/07
- September
- July
- June
- May
- April
- March
- February
- January
2006
- December

(Segmentación en pasajes) Hoja de ruta (Ep. Iv)

Segmentación en pasajes, Hojas de ruta
Tuesday, July 17, 2007, 07:51 AM

Algunos de vosotros ya habéis terminado de implementar el método de Good-Turing para obtener probabilidades a partir de frecuencias relativas. Para la siguiente tarea deberéis aprovechar/integrar el código desarrollados hasta el momento para implementar un nuevo prototipo que hará lo siguiente:

Recibirá un texto plano.
Separará el texto anterior en sentencias y éstas en frases.
Calculará la frecuencia relativa de los n-gramas dentro del texto completo.
Empleando Good-Turing smoothing estimará las probabilidades para dichos n-gramas.
Implementará los estadísticos de ponderación que aparecen en la Figura 96 de la página 148 de este documento.

Los parámetros que recibirá dicho prototipo serán: el texto a procesar, el tamaño de n-grama y el estadístico a aplicar (SI, SCP, chi2, Dice o infogain).

Por el momento la salida será un listado de n-gramas con sus correspondientes pesos.

Continuará...

Back Next