Ad verba per numeros
T茅cnicas PLN/NLP
Thursday, May 17, 2007, 07:09 PM
En muchas aplicaciones PLN es necesario separar un texto en sentencias. Seguramente muchos de vosotros pensar茅is que es una tarea trivial. Tan s贸lo hay que "trocear" el texto all铆 donde se encuentre un separador de sentencia; como el punto, por ejemplo. Sin embargo, hay ocasiones en que esto no resulta tan sencillo y para muestra, un bot贸n:Thursday, May 17, 2007, 07:09 PM
Google busca m谩sEn el texto anterior hay cuatro sentencias, las dos primeras no terminan en punto, la tercera tiene un punto que no es separador de sentencia y la 煤ltima tiene nada menos que cuatro puntos...As铆 pues el asunto no es trivial y, como ya dije, es un problema recurrente por lo que varios estudiantes pasados y presentes se han enfrentado con 茅l. A modo de recopilaci贸n pongo aqu铆 enlaces a distintas soluciones que se han o est谩n empleando en distintos proyectos:
Estrena nueva 'home' que permite buscar directamente en todos sus motores
Nueva p谩gina principal de Google.com.
El popular buscador ha trasladado a la parte superior izquierda de su p谩gina principal cl谩sica las opciones de b煤squeda (Web, im谩genes, v铆deos, noticias, mapas, correo, etc...).
- En Java utilizando
BreakIterator
. - Tambi茅n en Java aprovechando el Sentence Splitter de JavaRAP.
- En C# empleando el objeto
EnglishMaximumEntropyTokenizer
EnglishMaximumEntropySentenceDetector
de Richard Northedge.
Back Next