Les paso algunas direcciones de datasets que son utilizados frecuentemente por la comunidad de investigadores de recuperación de información para realizar experimentos.
Chamaleon Orientado a pruebas de análisis de conglomerados
SMART Colección de distintos juegos de datos destinados a probar el sistema de recuperación de información SMART.
Medline Corpus de prueba de sistemas de recuperación de información ad-hocs. Es orientado a la medicina.
Reuters 21578, corpus destinado a evaluar sistemas de clasificación.
4-U Conjunto de 8.282 páginas web obtenidas de cuatro universidades y clasificadas por tipo de páqina.
Oshumed Colección de documentos médicos cuyo objetivo es evaluar SRIs.
20 NW 20 newsgroups datasets. Colección de 20.000 noticias destinada a evaluar técnicas de clasificación de documentos.
Glasgow Juegos de prueba para evaluar SRIs alojados en la Universidad de Gasglow
Web Spam Test Collections Colección de páginas web spam creada por Carlos Castillo.
Suscribirse a:
Comentarios de la entrada (Atom)
No hay comentarios.:
Publicar un comentario