sábado, febrero 03, 2007

Medidas complementarias para evaluar Sistemas de Recuperación de Información II

Medida-E

La Medida-E también combina E y P pero con la posibilidad de ponderar la importancia relativa de uno u otro y se calcula para un tamaño determinado de respuesta. Se define como:



Donde, e(j) corresponde a la Exhaustividad en el punto j y P(j) es la Precisión del j-ésimo documento. Luego, el parámetro b es el que permite definir si se pondera más la exhaustividad o la precisión:

Si b = 1, ambas tienen igual importancia.
Si b < 1 se pondera más la Exhaustividad.
Si b > 1 se pondera más la Precisión.

Además de la exhaustividad y la precisión es posible calcular otras medidas [41] [32] a partir de relaciones surgidas de la tabla de contingencia presentada anteriormente.


Tasa de Fallo (Fallout)

La tasa de fallo determina el porcentaje de documentos recuperados no relevantes sobre el total de documentos no relevantes del corpus.

F = No relevantes recuperados / Total de no relevantes

Volviendo al ejemplo anterior y suponiendo que el corpus total tiene 10 documentos y se recuperaron 7, de los cuales 4 son relevantes y 3 no relevantes, resulta:

F = 3 / 6 = 0,5

Nótese que se recuperaron todos los documentos relevantes ya que se alcanzó un valor de E = 1. Por lo tanto, el sistema ha recuperado un 50% de los documentos no relevantes.


Ruido (Noise)

El ruido determina la proporción de documentos irrelevantes hallados en el juego de documentos recuperados.

R = No relevantes recuperados / Total de recuperados

Se lo puede interpretar como la medida opuesta a la Precisión, por lo que su valor será complementario de ésta. Para el mismo ejemplo, donde P = 0.57 (ya que se recuperaron 4 documentos relevantes sobre un total de 7), el ruido es:

R = 3 / 7 = 0,43


Generalidad (Generality)

La generalidad corresponde a la proporción de documentos relevantes existentes en el corpus sobre todos los documentos del corpus. Una colección con un valor de generalidad alto, para una consulta, tiene mayoría de documentos relevantes que irrelevantes.

G = Total de relevantes / Total de documentos

Esta medida es más representativa del corpus que del sistema de recuperación de información. Si se promedian varias consultas, brinda una indicación acerca de la relevancia general del corpus a un conjunto de consultas.


Fuente: "Introducción a la Recuperación de Información, Conceptos, modelos y algoritmos básicos". Gabriel H. Tolosa y Fernando R.A. Bordignon

No hay comentarios.: