miércoles, enero 03, 2007

Evaluación de los Sistemas de recuperación de información - 3ra Parte

Partes del libro que he escrito con Gabriel Tolosa, titulado “Introducción a la Recuperación de Información”

Evaluación de los Sistemas de recuperación de información - 3ra Parte

(Ir a la 2da parte)

Sin embargo, resulta necesario un análisis más detallado calculando las medidas P y E para cada posición dj. Este brinda una mejor perspectiva del comportamiento del sistema. Veamos para la salida del ejemplo anterior:



En esta tabla se puede apreciar como varia la Precisión a medida que se recuperan más documentos relevantes, es decir, cuando se avanza en ranking de la lista de respuesta y aumenta la exhaustividad. En el gráfico 3 se muestra la evolución de ambas medidas conforme se avanza en la lista rankeada de documentos recuperados. El eje x representa el número de documentos evaluados y las curvas muestran el comportamiento de las medidas.



Para esta evaluación también resulta de utilidad una gráfica donde se relacionen ambas medidas. Generalmente, para el eje X se toman 11 niveles standard de Exhaustividad (0.0, 0.1, 0.2,, 0.9, 1.0). Los niveles de exhaustividad se utilizan para mostrar el comportamiento de un sistema de recuperación contrastándolos con la precisión. En el gráfico 4 se muestra esta relación para la salida del sistema del ejemplo anterior.



Como se puede apreciar, los valores de Precisión y Exhaustividad son relativos al tamaño de la respuesta que se está evaluando y permiten – solo a través del análisis detallado – evaluar minuciosamente la performance del sistema.

Ahora bien, supóngase que para el mismo corpus y la misma consulta otro sistema entrega la siguiente respuesta consistente de 20 documentos, B’’:

B’’ = {d79, d10, d90, d81, d2, d70, d82, d13, d20, d45, d60, d30, d77, d91, d21, d88, d100, d1, d29, d11}

Los valores para P y E son:

P = 10 / 20 = 0.50
E = 10 / 10 = 1.00

Por lo que presupone que ambos sistemas tienen una performance equivalente. Sin embargo, si lo analizamos para cada posición de dj tendremos:



En el gráfico 5 se muestra la curva de Exhaustividad/Precisión para la salida del nuevo sistema (denominado Sistema 2) comparado con el anterior (Sistema 1). Aquí se puede apreciar que este nuevo sistema siempre alcanza una mayor precisión al recuperar los documentos entre los primeros de la lista de respuesta. Esto se debe a que la exhaustividad máxima se alcanza antes de tener que revisar toda la respuesta. Ahora bien, ¿Es mejor el segundo sistema que el primero? En términos de Exhaustividad y Precisión se puede afirmar que sí a partir de este análisis.



Ahora, supóngase que para una nueva consulta el conjunto de los documentos relevantes es el siguiente:

R = {d2, d45, d70, d77 }

Si se evalúan los niveles de exhaustividad nos encontramos con 0.25, 0.50, 0.75 y 1.00. Si se desean comparar dos o más consultas resulta necesario normalizar los niveles de exhaustividad a los standard utilizando interpolación. La precisión interpolada al nivel standard de exhaustividad j se define como la máxima precisión obtenida en algún nivel de exhaustividad entre j y (j + 1):

P(r) = max P(r) j Î {1, 2 , 3,…, 9, 10}
rj <= r <= r j+1

Si por una consulta realizada al sistema se tiene la siguiente respuesta:

A’ = {d77, d10, d70, d13, d20, d45, d2}

El análisis detallado resulta:



Si bien aquí se presentaron los resultados para una sola consulta, en la evaluación de un sistema real se deben ejecutar decenas de consultas y promediar los resultados antes de comparar diferentes sistemas. Para un conjunto Q, de tamaño |Q|, la precisión promedio al nivel r es:



Normalmente, para poder comparar dos o más sistemas se deben ejecutar varias corridas de cada uno, utilizando el conjunto de consultas Q y – finalmente – obtener la precisión promedio.

Aunque la Exhaustividad y la Precisión son ampliamente utilizadas como base para la evaluación de los SRI, Baeza-Yates [2] señala algunas cuestiones referidas a éstas:

1) Para poder determinar la Exhaustividad máxima para una consulta se requiere conocer completamente la colección, al detalle de discernir los documentos relevantes de los que no lo son. Por otro lado, P se puede calcular de manera exacta mientras que E no siempre.

2) Estas medidas capturan aspectos diferentes del conjunto de respuesta y – en algunos casos – resulta más útil una medida única. En esta cuestión Korfhage [Korfhage, 1999] señala que E y P se encuentran relacionadas de tal manera que si se las analiza por separado muestran una vista incompleta de la efectividad del sistema evaluado.

3) Estas medidas requieren del procesamiento por lotes de un conjunto de consultas, por lo que no resultan útiles en sistemas interactivos.

Complementariamente a lo expresado en el punto 2, Martínez-Méndez [36] plantea que muchos usuarios consideran más importante la Precisión ya que – mientras encuentren información relevante – no se preocuparán tanto por los documentos que no se recuperan. Según Cleverdon, la Precisión resulta interesante al usuario, no así la Exhaustividad ya que se valoran más las salidas sin ruido. No obstante, hay situaciones donde un usuario puede estar interesado en valores altos de Exhaustividad. Suponga que un estudiante se encuentra realizando una tesis sobre un tema cualquiera. En la etapa de relevamiento de trabajos relacionados, al interactuar con un SRI, seguramente estará interesado en que el resultado de su búsqueda sean todos los documentos existentes – aunque se conforme con una alta proporción – sobre su tema de trabajo.

Un ejemplo opuesto al presentado en el párrafo anterior, en el cual se desee obtener alta Precisión, es el caso de un usuario que utiliza un buscador de Internet para hallar el significado de un término, donde espera que su necesidad de información se satisfaga en el menor tiempo posible .

A continuación, se presentan otras medidas que complementan las enunciadas. Algunas son definiciones nuevas y otras combinaciones de E y P que brindan un valor único de la performance de un sistema.

Referencias

[2] Baeza-Yates, R. y Ribeiro-Neto, B. “Modern Information Retrieval”. ACM Press. Addison Wesley. 1999.

[36] Martinez Mendez, F.J. y Rodriguez Muñoz, J.V. “Reflexiones sobre la Evaluación de los Sistemas de Recuperación de Información: Necesidad, Utilidad y Viabilidad”. Anales de Documentación, Nro. 7, págs. 153-170. 2004.

No hay comentarios.: