Ad verba per numeros

Técnicas PLN/NLP
Thursday, May 17, 2007, 07:09 PM
En muchas aplicaciones PLN es necesario separar un texto en sentencias. Seguramente muchos de vosotros pensaréis que es una tarea trivial. Tan sólo hay que "trocear" el texto allí donde se encuentre un separador de sentencia; como el punto, por ejemplo.

Sin embargo, hay ocasiones en que esto no resulta tan sencillo y para muestra, un botón:

Google busca más
Estrena nueva 'home' que permite buscar directamente en todos sus motores
Nueva página principal de Google.com.
El popular buscador ha trasladado a la parte superior izquierda de su página principal clásica las opciones de búsqueda (Web, imágenes, vídeos, noticias, mapas, correo, etc...).

En el texto anterior hay cuatro sentencias, las dos primeras no terminan en punto, la tercera tiene un punto que no es separador de sentencia y la última tiene nada menos que cuatro puntos...

Así pues el asunto no es trivial y, como ya dije, es un problema recurrente por lo que varios estudiantes pasados y presentes se han enfrentado con él. A modo de recopilación pongo aquí enlaces a distintas soluciones que se han o están empleando en distintos proyectos:

Con el tiempo espero ir añadiendo más información sobre estas y otras herramientas.

Back Next