viernes, septiembre 29, 2006

¿Recuperación de Información o Recuperación de Datos?

Continuando con la idea de presentar algunas partes del libro que he escrito con Gabriel Tolosa, titulado “Introducción a la Recuperación de Información”, ahora nos vamos a dedicar tratar las diferencias existentes entre recuperación de datos y recuperación de información.

Muchos usuarios se encuentran familiarizados con el concepto de recuperación de datos (RD), especialmente aquellos que – a menudo – interactúan con sistemas de consulta en bases de datos relacionales ó en registros de alguna naturaleza, como por ejemplo, un registro de los empleados de una organización. Sin embargo, hay diferencias significativas en los conceptos que definen que el tratamiento de las unidades (datos o información) en cada caso sean completamente diferentes.

Básicamente, existen diferencias sustanciales en cuanto a los objetos con que se trata y su representación, la especificación de las consultas y los resultados.

En el área de RD los objetos que se tratan son estructuras de datos conocidas. Su representación se basa en un formato previo definido y con un significado implícito (hay una sintaxis y semántica no ambigua) para cada elemento. Por ejemplo, una tabla en una base de datos que almacena instancias de clientes de una organización posee un conjunto de columnas que definen los atributos de todos los clientes y cada fila corresponde a uno en particular. Nótese que cada elemento (atributo) tiene un dominio conocido y su semántica está claramente establecida. Por otro lado, en el área de recuperación de información (RI) la unidad u objeto de tratamiento es básicamente un documento de texto – en general – sin estructura.

En cuanto a la especificación de las consultas, en el área de RD se cuenta con una estructura bien definida dada por un lenguaje de consulta que permite su especificación de manera exacta. Las consultas no son ambiguas y consisten en un conjunto de condiciones que deben cumplir los ítems a evaluar para que la misma se satisfaga. Por ejemplo, en el modelo de bases de datos, las consultas especifican – entre otros – utilizando el lenguaje SQL (Structured Query Language) cuya semántica es precisa:

SQL // En lenguaje natural _
SELECT * // Seleccionar todos los clientes de
FROM Clientes // Chivilcoy que deban más de 10000 pesos
WHERE Localidad = “Chivilcoy” // (se sabe, por definición, que lo que deben
AND Saldo_Cuenta > 10000 // es su saldo de cuenta)

En este ejemplo, se puede ver la clara semántica de la consulta en SQL a partir de que se conoce que existe un atributo Localidad y otro Saldo_Cuenta y lo que cada uno representa. Sin embargo, esto no es tan directo ni tan simple cuando se trata de recuperar documentos en el contexto de la RI. En primer lugar, debido a que la necesidad de un usuario puede ser difícil de expresar. Por ejemplo, supóngase que se desea encontrar:

“Documentos que contengan información biográfica de los entrenadores de los equipos de fútbol de Argentina que ganaron más torneos en los últimos 10 años”

La primera dificultad consiste en construir una expresión de consulta que refleje exactamente esta necesidad de información del usuario. Especialmente, si se tiene en cuenta que para resolverla completamente quizá primero se requiera de conocer información parcial, por ejemplo, “ganaron más torneos en los últimos 10 años”. ¿Qué significa “ganaron más torneos”? Esta es una situación subjetiva y – en muchos casos – el sistema debe manejar estas cuestiones, junto con ambigüedades (por ejemplo, palabras cuyo significado está determinado por el contexto) e incompletitud de la mejor manera posible. De hecho, los documentos y las expresiones de consulta se interpretan de forma que el proceso de recuperación determine un grado de similitud entre éstos.

Finalmente, en un sistema de RD los resultados consisten en el conjunto completo de elementos que satisfacen todas las condiciones del query. Como la consulta no admite errores, el resultado es exacto, ni uno más, ni uno menos. Y el orden de aparición es simplemente casual (a menos que específicamente se desee ordenar por alguna columna), pero en todos los casos este orden es irrelevante respecto de la consulta y no significa nada, es decir, no se puede implementar sistema de rankeo alguno. En el área de RI, aparece el concepto de relevancia y la salida (respuesta) se encuentra confeccionada de acuerdo a algún criterio que evalúa la “similitud” que existe entre la consulta y cada documento. Por lo tanto, el resultado es un ranking (que no es sinónimo de “orden”, tal como se lo entiende habitualmente en RD), donde la primera posición corresponde al documento más relevante a la consulta y así decrece sucesivamente. El proceso de recuperación de información puede retornar documentos que no sean relevantes para el usuario, es decir, que el conjunto de respuesta no es exacto.

A continuación, se resumen las diferencias más significativas entre un SRI y un sistema de RD como lo es un Sistema de Gestión de Bases de Datos (SGBD).

SGBD
Estructura: Información estructurada con semántica bien definida.
Recuperación: Determinística. Todo el conjunto solución es relevante para el usuario
Consulta y Lenguaje: Especificación precisa (no hay ambigüedad). Lenguaje formal, preciso y estructurado.
Resultados: Aciertos exactos


SRI
Estructura: Información semi o no estructurada.
Recuperación: Probabilística. Una porción de los documentos recuperados puede no ser relevante.
Consulta y Lenguaje: Hay imprecisión en su formulación. Lenguaje natural, ambiguo y no estructurado.
Resultados: Aciertos parciales


Otros autores también establecieron las diferencias entre ambos conceptos: Grossman y otro [Grossman] claramente muestran la diferencia cuando enuncian que “la recuperación de información es encontrar documentos relevantes, no encontrar simples correspondencias a unos patrones de bits”. Nótese la diferencia sustancial que existe en tratar de encontrar documentos “relevantes” a una consulta o – simplemente – encontrar aquellos donde “coinciden” patrones de términos o se cumplen ciertas condiciones. En el caso de la RD, la tarea es relativamente sencilla, mientras que en área de RI es extremadamente compleja y no existe aún una solución definitiva al problema.

[Grossman] Grossman, D. y Frieder, O. “Information Retrieval. Algorithms and Heuristics”. Kluwer Academic Publishers. 1998.

No hay comentarios.: