jueves, diciembre 21, 2006

Evaluación de los Sistemas de recuperación de información - 2da Parte

Partes del libro que he escrito con Gabriel Tolosa, titulado “Introducción a la Recuperación de Información”

Evaluación de los Sistemas de recuperación de información - 2da Parte

(Ir a la 1er parte)

Para analizar estas medidas planteamos el siguiente ejemplo: Existe una colección D la cual posee 100 documentos, digamos:

D = {d1, d2, d3, d4, d5,…,d98, d99, d100}

Ahora, supóngase que para una consulta q existen 10 documentos relevantes, R:

R = {d2, d45, d70, d77, d79, d81, d82, d88, d90, d91}

A pedido del usuario, el sistema entregó los primeros 12 documentos, A, rankeados de la siguiente forma:

A = {d79, d10, d90, d13, d20, d45, d60, d30, d77, d21, d88, d100}

(se han resaltado los documentos pertenecientes a R, es decir, los relevantes)

Los cálculos de performance de la recuperación para un tamaño de respuesta de 12 documentos resultan:

P = 5 / 12 = 0.42

E = 5 / 10 = 0.50

Sin embargo, se puede modificar el tamaño de la respuesta a los efectos de intentar recuperar más documentos relevantes, es decir, para aumentar la exhaustividad. En tal caso, supóngase una nueva respuesta – a la misma consulta – consistente de 16 documentos, A’:

A’ = {d79, d10, d90, d13, d20, d45, d60, d30, d77, d21, d88, d100, d1, d91, d29, d10}

Entonces, resulta:

P = 6 / 16 = 0.38

E = 6 / 10 = 0.60

Y luego, se solicita una nueva respuesta, pero ahora el tamaño de la lista consiste de 20 documentos, A’’:

A’’ = {d79, d10, d90, d13, d20, d45, d60, d30, d77, d21, d88, d100, d1, d91, d29, d11, d81, d2, d70, d82}

Los nuevos valores para P y E son:

P = 10 / 20 = 0.50

E = 10 / 10 = 1.00

Como se vio anteriormente, es posible evaluar la performance de un sistema bajo distintas situaciones. En nuestro caso particular hemos analizado la efectividad de un mismo sistema para una misma consulta sobre una misma colección para tres tamaños del conjunto de respuestas (12, 16 y 20).

Continuará!!!

No hay comentarios.: