Hasta aquí, hemos planteado diferentes medidas para evaluar la performance de la recuperación de un SRI, tanto para sistemas de producción existentes o sistemas experimentales con nuevas estrategias. Para la evaluación se requiere contar con colecciones conocidas sobre las cuales se puedan determinar consultas y la relevancia de los documentos respecto de éstas, para luego calcular las métricas. Estas colecciones se fueron desarrollando con el tiempo y evolucionaron en tamaño y calidad. De manera genérica, nos referimos a estas colecciones como Colecciones de Prueba y – básicamente – están formadas por tres componentes, a saber:
1) Un conjunto de documentos que constituyen el corpus.
2) Un conjunto de necesidades de información (NI).
3) Juicios de relevancia que relacionan las NI con los documentos del corpus que son relevantes a éstas.
Una colección de prueba es una herramienta experimental indispensable para los investigadores en RI ya que permite comprender la naturaleza de los resultados, compararlos con otros y reproducir pruebas en iguales condiciones. Los primeros esfuerzos en su creación se deben a Cleverdon, en los denominados Experimentos Cranfield en el área aeronáutica entre 1957 y 1968. Si bien estas primeras colecciones contenían unos cientos de documentos, marcaron una línea de trabajo, la cual – en la actualidad – se considera una tradición en la evaluación de los SRI (La Tradición Cranfield).
Posteriormente, los experimentos de Salton en la Universidad de Cornell con el sistema SMART (ftp://ftp.cs.cornell.edu/pub/smart) entre 1964 y 1988 también contemplaron la creación de colecciones de prueba, en este caso superando el millar de documentos. En la tabla 1 se presentan algunas colecciones standard (clásicas en RI) con sus características principales. Cabe destacar que los documentos de estas colecciones son de poca extensión (la colección TIME es de noticias, mientras que las demás son resúmenes). Por ejemplo, en la CACM el vocabulario contiene 10446 términos, con un promedio de aproximadamente 40 por documento.
La construcción de colecciones de prueba no es una tarea trivial y plantea algunas cuestiones que pueden aumentar – aún más – la complejidad. La primera de las cuestiones que aparece es cómo identificar los documentos relevantes. En general, la decisión de la relevancia o no de un documento respecto de una consulta es de un asesor humano. Por lo tanto, en colecciones grandes esta tarea puede ser extremadamente costosa. Además, se debe establecer si la relevancia se evalúa de manera dicotómica: a) es relevante b) no es relevante o bien de una manera más fina con una escala, por ejemplo: a) no relevante, b) poco relevante, c) relevante, d) muy relevante. Finalmente, resulta importante la cantidad de juicios a obtener, es decir, si habrá un solo juicio (solo un asesor) o muchos (más de un asesor). Esta consideración es importante ya que diferentes asesores pueden plantear desacuerdos y se deberá tener un criterio para discernir esta situación.
En la década de 1990, en el Instituto Nacional de Estándares y Tecnología (NIST, National Institute of Standards and Technology), se comenzó a promover – liderada por Donna Harman – una conferencia dedicada al tratamiento de distintas áreas de la RI y la construcción de grandes colecciones de prueba (millones de documentos) denominada TREC (Text REtrieval Conference) (http://trec.nist.gov/). Desde entonces, la TREC se convirtió en un encuentro anual dedicado a diferentes tareas, denominadas tracks, que utilizan distintas colecciones. Inicialmente, comenzaron con dos tracks:
- Recuperación “ad-hoc” (Ad-hoc retrieval)
- Ruteo (Routing)
Pero con el tiempo se anexaron otros tales como:
- Recuperación web (Web retrieval)
- Recuperación Interactiva (Interactive retrieval)
- Filtrado de texto (Text filtering)
- Respuestas a preguntas (Question-Answering)
- Recuperación interlenguas (Cross-Language)
Las colecciones de la TREC se encuentran formadas por documentos de diferentes fuentes, como por ejemplo: Wall Street Journal (WSJ), Associated Press (AP), Ziff-Davis Computer Archive (ZIFF), Federal Register (FR), US Patentes (PAT), LA Times (LAT), Financial Times (FT). Los documentos se encuentran estructurados con etiquetas SGML para facilitar su tratamiento. En la figura 3 se muestra un ejemplo de un documento:
Por otro lado, las coecciones incluyen descripciones de las necesidades de información utilizadas para la evaluación, que en el marco de la TREC reciben el nombre de topic. En la figura 4 se muestra un ejemplo de un topic. Con estos topics cada participante genera un query que es evaluado por su sistema, de acuerdo al tratamiento particular que decida.
La creación de los juicios de relevancia es la tarea más dificultosa debido a que las colecciones modernas poseen millones de documentos y es imposible chequear cada uno con respecto a cada query derivado de cada topic. En la TREC se definió un mecanismo de combinación (pooling) en el cual solo una fracción de la colección se selecciona para evaluar manualmente. La creación de los juicios de relevancia de las colecciones de la TREC requiere de la participación de diferentes grupos de investigación pertenecientes a universidades, laboratorios y empresas. Cada grupo utiliza su propio SRI para consultar las colecciones con los queries. El proceso para la creación de los juicios de relevancia es el siguiente:
1) El NIST crea 50 topics y los remite a los participantes, quienes crean sus consultas (queries) y las procesan contra el conjunto de documentos.
2) Cada participante envía una cantidad de corridas (runs) que consisten de – como máximo – los 1000 primeros documentos recuperados para cada tema. Un subconjunto de las corridas de cada participante se define como “corrida oficial”.
3) El NIST toma los 100 primeros documentos por tema de cada corrida oficial para formar un grupo (pool) para cada tema (removiendo los duplicados). Se ha estudiado que con 100 documentos se obtienen resultados confiables, aun cuando algunos documentos relevantes se pierden.
4) En NIST, un asesor humano debidamente entrenado juzga todos los documentos en el pool para aquellos temas que él creo. Los resultados son los juicios de relevancia, tradicionalmente denominados qrels.
5) Con los qrels, las corridas se evalúan con el software trec_eval, el cual reporta ciertas medidas de performance.
Si bien con este método algunos documentos relevantes se pueden perder, como el subconjunto examinado posee una muestra representativa de los documentos relevantes se pueden aproximar los resultados.
Una segunda dificultad al crear los juicios de relevancia es que – a menudo – los asesores humanos no están de acuerdo acerca de la relevancia. Esta situación se ha estudiado por Vorhees [63] y se determinó que tiene poca influencia en la efectividad relativa de los sistemas. Para ello, utilizó varios conjuntos independientes de juicios de relevancia y encontró que mas allá del bajo solapamiento y su amplia variación entre temas particulares, el ranking relativo se mantuvo sin cambios para los diferentes conjuntos.
La TREC fue el primer esfuerzo en crear grandes colecciones de prueba, las cuales proveen resultados más confiables. Debido a que resulta imposible la creación de los qrels de manera manual, el método descripto anteriormente resulta adecuado. Sin embargo, este tema continua en discusión y algunos investigadores han propuesto métodos alternativos para crear juicios de relevancia [15] [54].
Referencias:
[15] Cormack, G.V., Palmer, C.R., Clarke, L. A. “Efficient Construction of Large Test Collections”. Proceedings of Melbourne SIGIR 1998. Conference on Research and Development in Information Retrieval. ACM Press. 1998.
[54] Sanderson, M. Y Joho, H. “Forming Test Collections with No System Pooling”. Proceedings of Sheffield SIGIR 2004. Conference on Research and Development in Information Retrieval. ACM Press. Págs. 33-40. 2004.
[63] Voorhees, E.M. “Variations in relevance judgments and the measurement of retrieval effectiveness”. Information Processing and Management, 36 (5), págs. 697-716. 2000.
No hay comentarios.:
Publicar un comentario