Medida-E
La Medida-E también combina E y P pero con la posibilidad de ponderar la importancia relativa de uno u otro y se calcula para un tamaño determinado de respuesta. Se define como:
Donde, e(j) corresponde a la Exhaustividad en el punto j y P(j) es la Precisión del j-ésimo documento. Luego, el parámetro b es el que permite definir si se pondera más la exhaustividad o la precisión:
Si b = 1, ambas tienen igual importancia.
Si b < 1 se pondera más la Exhaustividad.
Si b > 1 se pondera más la Precisión.
Además de la exhaustividad y la precisión es posible calcular otras medidas [41] [32] a partir de relaciones surgidas de la tabla de contingencia presentada anteriormente.
Tasa de Fallo (Fallout)
La tasa de fallo determina el porcentaje de documentos recuperados no relevantes sobre el total de documentos no relevantes del corpus.
F = No relevantes recuperados / Total de no relevantes
Volviendo al ejemplo anterior y suponiendo que el corpus total tiene 10 documentos y se recuperaron 7, de los cuales 4 son relevantes y 3 no relevantes, resulta:
F = 3 / 6 = 0,5
Nótese que se recuperaron todos los documentos relevantes ya que se alcanzó un valor de E = 1. Por lo tanto, el sistema ha recuperado un 50% de los documentos no relevantes.
Ruido (Noise)
El ruido determina la proporción de documentos irrelevantes hallados en el juego de documentos recuperados.
R = No relevantes recuperados / Total de recuperados
Se lo puede interpretar como la medida opuesta a la Precisión, por lo que su valor será complementario de ésta. Para el mismo ejemplo, donde P = 0.57 (ya que se recuperaron 4 documentos relevantes sobre un total de 7), el ruido es:
R = 3 / 7 = 0,43
Generalidad (Generality)
La generalidad corresponde a la proporción de documentos relevantes existentes en el corpus sobre todos los documentos del corpus. Una colección con un valor de generalidad alto, para una consulta, tiene mayoría de documentos relevantes que irrelevantes.
G = Total de relevantes / Total de documentos
Esta medida es más representativa del corpus que del sistema de recuperación de información. Si se promedian varias consultas, brinda una indicación acerca de la relevancia general del corpus a un conjunto de consultas.
Fuente: "Introducción a la Recuperación de Información, Conceptos, modelos y algoritmos básicos". Gabriel H. Tolosa y Fernando R.A. Bordignon
Suscribirse a:
Comentarios de la entrada (Atom)
No hay comentarios.:
Publicar un comentario