Apuntes, son solo apuntes: El entorno de la recuperación de información

Hace algún tiempo, con mi compañero de trabajo Gabriel Tolosa, he escrito un libro de caracter docente, que introduce al atrevido lector al mundo de la recuperación de información.

La anécdota dice que por cuestiones burocráticas propias de alguna institución pública, el mencionado material aún "duerme" -en algún cajón de escritorio de un gerente- el sueño de querer ser. La excusa pública es que se está esperando por alguna reglamentación (la cual parece que a nadie le importa tratarla) para evaluarse si debe publicarse o no. La historia dice que hace dos años el material sigue esperando.

Hemos decidido publicar algunas pasajes de dicho libro en este blog a los efectos de poder poner a disposición de los interesados algunos mínimos conocimiento sobre este apasionante tema lllamdo "recuperación de información".

Históricamente, el hombre ha necesitado de medios sobre los cuales representar todo acerca del mundo que lo rodea y de reflejar – de alguna manera – su evolución. La escritura ha sido el mecanismo “tradicional” y fundamental que soporta su conocimiento en el tiempo.

Esta misma evolución ha facilitado la existencia de diferentes medios de representación de la escritura, llegando hasta nuestros días donde la información se representa digitalmente y es posible su almacenamiento y su distribución masiva en forma simple y rápida, a través de redes de computadoras. La digitalización abrió nuevos horizontes en las formas en que el hombre puede tratar con la información que produce.

De igual manera, el volumen de información existente crece permanentemente y adquiere diferentes formas de representación, desde simples archivos de texto en una computadora personal o un periódico electrónico hasta librerías digitales y espacios mucho más grandes y complejos como la web. Algunos investigadores han planteado que – desde hace varios años – existe un fenómeno denominado “sobrecarga de información” [35] debido a que el volumen y la disponibilidad hacen que los usuarios no cuenten con suficiente tiempo físico para “procesar” todo el cúmulo de medios a su alcance [9].

Entonces, resulta importante tratar con toda esa información disponible electrónicamente para que pueda servir a diferentes personas (usuarios) en diferentes situaciones. Esto plantea un desafío interesante: hay importantes volúmenes de información y hay usuarios que se pueden beneficiar de alguna manera con la posibilidad de acceder a ésta, por lo tanto, cómo poder unir preguntas con respuestas, necesidades de información con documentos, consultas con resultados? Bien, en las ciencias de la computación existe un área, la Recuperación de Información (Information Retrieval), que estudia y propone soluciones al escenario presentado, planteando modelos, algoritmos y heurísticas.

La Recuperación de Información (RI) no es un área nueva, sino que se viene desarrollando desde finales de la década de 1950. Sin embargo, en la actualidad adquiere un rol más importante debido al valor que tiene la información. Se puede plantear que disponer o no de la información justa en tiempo y forma puede resultar en el éxito o fracaso de una operación. De aquí, la importancia de los Sistemas de Recuperación de Información (SRI) que pueden manejar – con ciertas limitaciones – estas situaciones de manera eficaz y eficiente.

Pero, ¿Qué se entiende concretamente por “Recuperación de Información”? Para Ricardo Baeza-Yates y otros [2] “la Recuperación de Información trata con la representación, el almacenamiento, la organización y el acceso a ítems de información”.

Años antes, Salton [50] propuso una definición amplia que plantea que el área de RI “es un campo relacionado con la estructura, análisis, organización, almacenamiento, búsqueda y recuperación de información”.

Cabe aclarar que en las definiciones anteriores los elementos de información son no estructurados, tales como documentos de texto libre (por ejemplo, un archivo de texto que contenga La Biblia) ó semi-estructurados, como lo son las páginas web.

Croft [16] estima que la recuperación de información es “el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de información que son pertinentes para la resolución del problema planteado. En estas tareas desempeñan un papel fundamental los lenguajes documentales, las técnicas de resumen, la descripción del objeto documental, etc.”. Por otro lado, Korfhage [25] definió la RI como “la localización y presentación a un usuario de información relevante a una necesidad de información expresada como una pregunta”

Ciertamente, es un área amplia, donde se abarcan diferentes tópicos, algunos computacionales como el almacenamiento y la organización; y otros relacionados con el lenguaje y los usuarios como la representación y la recuperación propiamente dicha.

Nótese que Croft y Korfhage plantean explícitamente el rol del usuario como fuente de consultas y destinatario de las respuestas. Por lo tanto, de manera más genérica, podemos plantear que la recuperación de información intenta resolver el problema de “encontrar y rankear documentos relevantes que satisfagan la necesidad de información de un usuario, expresada en un determinado lenguaje de consulta”. Sin embargo, existe un problema que dificulta sobremanera esta tarea y consiste en poder “compatibilizar” y comparar el lenguaje en que está expresada tal necesidad de información y el lenguaje de los documentos.

[2] Baeza-Yates, R. y Ribeiro-Neto, B. “Modern Information Retrieval”. ACM Press. Addison Wesley. 1999.

[9] Carlson, C. “Information overload, retrieval strategies and Internet user empowerment”.In Haddon, Leslie, Eds. Proceedings The Good, the Bad and the Irrelevant (COST 269) 1(1), pp. 169-173, Helsinki (Finland). 2003.

[16] Croft, W.B. “Approaches to intelligent information retrieval.” Information Proccesing & Management, 23, 4, pp. 249-254. 1987.

[25] Korfhage, R. R. “Information Storage and Retrieval”. New York. Wiley Computer Publishing. 1997.

[35] Maes, P. “Agents that Reduce Work and Information Overload”. Communications of the ACM, Vol. 37, Nro. 7, págs. 30-40. 1994.

[50] Salton, G. Y Mc Gill, M.J. “Introducttion to Modern Information Retrieval”. New York. Mc Graw-Hill Computer Series. 1983.

Apuntes, son solo apuntes

jueves, agosto 17, 2006

El entorno de la recuperación de información - I

No hay comentarios.:

Acerca de mi

Seguidores

Archivo de entradas

Enlaces

Estadísticas