martes, octubre 03, 2006

Juegos de datos (datasets) para experimentos de recuperación de información

Les paso algunas direcciones de datasets que son utilizados frecuentemente por la comunidad de investigadores de recuperación de información para realizar experimentos.

Chamaleon Orientado a pruebas de análisis de conglomerados


SMART Colección de distintos juegos de datos destinados a probar el sistema de recuperación de información SMART.


Medline Corpus de prueba de sistemas de recuperación de información ad-hocs. Es orientado a la medicina.


Reuters 21578, corpus destinado a evaluar sistemas de clasificación.


4-U Conjunto de 8.282 páginas web obtenidas de cuatro universidades y clasificadas por tipo de páqina.


Oshumed Colección de documentos médicos cuyo objetivo es evaluar SRIs.


20 NW 20 newsgroups datasets. Colección de 20.000 noticias destinada a evaluar técnicas de clasificación de documentos.


Glasgow Juegos de prueba para evaluar SRIs alojados en la Universidad de Gasglow

Web Spam Test Collections Colección de páginas web spam creada por Carlos Castillo.

No hay comentarios.: