Continuo con la idea de presentar algunas partes del libro que he escrito con Gabriel Tolosa, titulado “Introducción a la Recuperación de Información”
Evaluación de los sistemas de recuperación de información - 1ra Parte
Como hemos mencionado en el capítulo anterior, existen diferentes aproximaciones para resolver el problema central del área de RI. De aquí que contamos con sistemas basados en diferentes modelos y algoritmos, los cuales – como todo sistema – deben poder ser evaluados bajo ciertos criterios. Esta tarea permite medir los parámetros de funcionamiento que valoran al sistema y – además – posibilitan la comparación entre distintos SRI.
En sistemas tradicionales – como los de recuperación de datos – los parámetros típicos de evaluación son tiempo y espacio. La medición del tiempo de respuesta y de la cantidad de espacio de almacenamiento que el sistema utiliza brindan parámetros concretos y relativamente fáciles de medir. Mientras un sistema responda más velozmente y requiera menos almacenamiento, mejor será. El balance entre estos dos parámetros depende de los objetivos de diseño del sistema. Por ejemplo, si el requerimiento mayor corresponde a la velocidad del sistema para entregar respuestas porque con éstas se toman decisiones en tiempo real, no importará demasiado la cantidad de estructuras de datos que se van a implementar y que permitirán acelerar las búsquedas. Por el contrario, si el sistema va a correr sobre una PDA, el espacio de almacenamiento es muy importante y – tal vez – se pueda “esperar” un poco más por la respuesta.
Sin embargo, la evaluación de un sistema de RI no es una tarea sencilla. Debido a que el conjunto de respuesta no es exacto se requiere ponderar cómo éste se ajusta a la consulta y – peor aún – ésta a la necesidad de información del usuario. Aquí aparecen las cuestiones subjetivas que se plantean al especificar un query, al adoptar una representación lógica de los documentos de la colección y al utilizar una función de ranking determinada.
Por lo tanto, la evaluación más común se orienta a determinar cuán preciso es el conjunto respuesta a partir del concepto de relevancia. Para Baeza-Yates [2] este tipo de evaluación corresponde a la evaluación de la performance de la recuperación. En el mismo sentido, van Risbergen [61] plantea medir la efectividad del sistema de recuperación, la cual cuantifica su capacidad para recuperar documentos relevantes mientras no recupera documentos no relevantes. Un sistema más efectivo permite satisfacer en mayor medida la necesidad de un usuario.
2.1 – Medidas de Evaluación
Desde los primeros esfuerzos relacionados con la evaluación de los SRI hasta la actualidad, la aproximación clásica para describir la performance de la recuperación consiste en determinar cuántos documentos relevantes se recuperaron y cómo se rankearon para entregarlos al usuario.
Cuando un usuario plantea un query a un SRI, obtiene como respuesta una lista de documentos de acuerdo a un ranking determinado por el sistema. Como ya hemos mencionado, dicha respuesta está formada por documentos relevantes y otros que no lo son y la lista – generalmente – no contiene todos los documentos de la colección (en colecciones grandes, sería imposible de revisar toda la respuesta). En el gráfico 1 se muestra esta situación. Dada una consulta cualquiera, un SRI recuperará el grupo identificado como C, de los cuales solo una parte son relevantes (D).
A partir de esta situación, se puede establecer la tabla de contingencia anterior para la evaluación.Existen dos medidas ampliamente aceptadas en la comunidad de RI denominadas Precisión (en inglés, Precision) y Exhaustividad (Recall) planteadas por Cleverdon [13] hace varios años. La Exhaustividad se define como la proporción de los documentos relevantes que han sido recuperados y permite evaluar la habilidad del sistema para encontrar todos los documentos relevantes de la colección. Tal concepto podría resumirse a partir de la siguiente cuestión “¿Son todos los que están o nos faltan algunos?”.
La Precisión se define como la proporción de los documentos recuperados que son relevantes y permite evaluar la habilidad del sistema para rankear primero la mayoría de los documentos relevantes. Expresado en forma de pregunta: ¿Son todos relevantes o se “filtraron” algunos que no lo son?
Estas dos medidas se encuentran altamente relacionadas. Empíricamente se ha comprobado que una alta exhaustividad se acompaña de una muy baja precisión y viceversa (Gráfico 2), es decir, existe una relación inversa entre las [14].
Existe un compromiso entre Exhaustividad y Precisión, es decir, al aumentar la Exhaustividad recuperando mayor cantidad de documentos, veremos disminuir la Precisión. Esto se explica en el hecho – ya mencionado – que la salida de un SRI es un conjunto aproximado (no exacto) y – por lo tanto – entre ésta se encontrarán documentos no relevantes. Por el contrario, si recuperamos unos pocos documentos y todos son relevantes se tendrá una precisión máxima, pero seguramente se están perdiendo documentos útiles por no ser recuperados. El sistema ideal es aquel que siempre recupera todos los documentos relevantes y solo esos, situación que – hasta el momento – no existe.
Referencias
[2] Baeza-Yates, R. y Ribeiro-Neto, B. “Modern Information Retrieval”. ACM Press. Addison Wesley. 1999.
[13] Cleverdon, C.W., Mills, J. Y Keen, M. “Factors Determining the Performance of Indexing Systems”. ASLIB Cranfield Project. Vol. 1, Design, Vol2, Test Results. 1966.
[14] Cleverdon, C.W. “On the inverse relationship of recall and precision”. Journal of Documentation, vol. 28, págs. 195-201. 1972.
[61] van Rijsbergen, C.J. “Information Retrieval”. Department of Computing Science. University of Glasgow. 1979.
Suscribirse a:
Comentarios de la entrada (Atom)
1 comentario:
Estoy muy interesada en los sistemas de evaluación de recuperación de información en la web,enhorabuena por el artículo!!
Recuperación y organización de la información
Publicar un comentario