viernes, mayo 04, 2007

Toolkit para recuperación de información "Text Garden"

Buscando algún software eficiente para clustering de textos me topé con la suite Text Garden . Allí hay herramientas de information retrieval y data mining que por desgracia solo corren en Windows (algunos han comentado que en Linux con emulador andan). En particular probé hacer grupos con K-means y me ha dado buenos resultados con un corpus propio de noticias de prensa (500 objetos de texto en 10 clases se procesaron en 3 segundos). Me gustaron mucho dos aspectos: su facilidad de uso y la información de salida aportada (top words por clusters y medidas de cohesión de grupos).

Si quieren probar rápidamente este módulo de Text Garden hagan lo siguiente:

1) En un directorio copien los archivos de texto a agrupar automáticamente (usen extensión txt). Se recomienda que les eliminen las palabras comunes o vacías (artículos, preposiciones, conectores, etc) y normalices el texto transformándolo todo a mayúsculas o minúsculas, esto mejorará significativamente la perfomance (por ejemplo, al eliminar las palabras vacías se produce una reducción importante del espacio de trabajo, se elimina ruido).

2) Ejecuta el parser de text Garden para transformar tus archivos (corpus documental) a una estructura de datos propia de la aplicación

txt2bow -idir:corpus -o:salida.bow

Donde corpus es el nombre del directroio donde reside el corpus documental de prueba y salida.bow es el nombre del archivo de salida del proceso

3) Genere los clusters con el comando

bowkmeans -i:salida.bow -clusts:10

Se le indica que debe procesar el archivo salida y generar 10 clusters

4) Consulte los archivos de salida del proceso llamados kmens*.* donde encontrará los grupos formados e información sobre la calidad de los mismos.

Tip: Este soft permitiría de forma fácil implementar una salida de direcciones agrupadas por semejanza semántica a un buscador de una pequeña intranet.

No hay comentarios.: