domingo, abril 15, 2007

Recuperación de información: Preprocesamiento I

(Fernando Bordignon y Gabriel Tolosa, extracto del libro "Introducción a la Recuperación de Información", 2004)

Preprocesamiento de Textos I

Para poder implementar mecanismos de recuperación sobre una colección de documentos de texto es necesario obtener una representación de los mismos. Dicha representación responde a la implementación de un conjunto de criterios mediante los cuales se obtienen los términos y las relaciones entre éstos. Toda implementación de un SRI comienza con esta tarea de procesamiento del corpus. Esto se debe a que no todos los términos que componen un documento son igualmente representativos de su contenido. Cuestiones como su posición, la cantidad de ocurrencias o su función lingüística - entre otras - definen el grado de importancia de cada unos de los términos. El resultado es una representación de la colección, que es computacionalmente adecuada para los procesos siguientes y que, generalmente, se describe como "indexación de la colección".

En este capítulo se desarrollan - exclusivamente - las técnicas de análisis de texto que componen el proceso de indexación de una colección de documentos, dejando para el próximo capítulo lo relacionado con las estructuras de datos asociadas.

3.1 El proceso de indexación

La indexación es una operación que tiene por función la identificación

de los conceptos que representan el contenido de un documento y la traducción de los mismos a una forma que computacionalmente sea manejable.

Van Slype [62] plantea que la tarea de indexar consiste de tres etapas, a saber:

  • a) Familiarización con el contenido del documento.
  • b) Análisis documental.
  • c) Selección de los términos más representativos de su contenido.

Sin embargo, Lancaster [32] identifica solo dos etapas:

  • a) Reconocimiento del documento y extracción de los conceptos contenidos en el mismo.
  • b) Traducción de tales conceptos en términos de un lenguaje documental.

En el área de RI de manera automática, el concepto de indexación incluye la construcción de estructuras de datos que permitan almacenar tales términos representativos para soportar - posteriormente - la recuperación.



En el gráfico anterior se observa cómo luego del análisis de un fragmento de texto se seleccionaron términos representativos y se estructuraron bajo un criterio, manteniendo tanto la relación con el documento original como así también su posición interna.

3.2 Enfoques de la indexación

El proceso de indexación puede realizarse desde dos enfoques: uno basado en métodos no lingüísticos y otro basado en métodos lingüísticos. En el primer caso, se utilizan técnicas estadísticas para análisis de frecuencias y cálculo de pesos de los términos, análisis de probabilidades para determinación de multipalabras y téc

nicas de agrupamiento (clustering) destinadas a la detección y extracción de relaciones. En el segundo caso, se utilizan técnicas derivadas del procesamiento del lenguaje natural (PLN), las que pretenden imitar el comportamiento de los indizadores humanos. En este capítulo, es de principal interés el abordaje de los métodos no lingüísticos, aunque se realiza una breve introducción a los métodos lingüísticos.

Existen diversas técnicas que se pueden utilizar basadas en el enfoque lingüístico. Si bien algunas de éstas no se encuentran completamente desarrolladas para la comprensión del lenguaje natural y aún no permiten la construcción de una representación perfecta de los documentos, se utilizan en sistemas de RI [24]. Las técnicas más comunes son:

a. Procesamiento morfológico-léxico: Se trata de identificar formas sintagmáticas, siglas y locuciones. Esta técnica tiene como función principal obtener el léxico, el cual es el componente fundamental en los análisis posteriores sintáctico y semántico. El analizador morfológico permite que el análisis estadístico de frecuencias se realice sobre datos normalizados. Nótese que la idea principal del procesamiento morfológico-léxico es convertir un flujo de caracter

es a un flujo de palabras, para lo cual deberá tener técnicas para tratar los números, guiones, signos de puntuación, acrónimos, etc.

Una herramienta comúnmente utilizada son los etiquetadores de categorías gramaticales (Part of Speech Tagger) que tienen las funciones de asignar automáticamente la categoría léxica y brinda información sobre las categorías gramaticales. Un ejemplo de salida de procesamiento para la oración "El gato come pescado" es el siguiente:

El el TDMS0
Gato gato NCMS000
Come comer VMIP3S0, comer VMMP2S0
Pescado pescado NCMS000, pescar VMP00SM

Una demostración de las capacidades de un etiq uetador se encuentra en la página del Grupo de Lingüística Computacional de la Universidad de Barcelona, http://www.ub.es/gilcub/lascosas/eines/esinfo.html

b. Procesamiento sintáctico: Los analizadores sintácticos determinan la construcción de las oraciones localizando la función que cumplen las palabras como sujeto, verbo, complemento. El objetivo principal es describir la estructura de las oraciones que componen los documentos. En el análisis sintáctico se separan las unidades lingüísticas con sentido simple o compuesto y se desambiguar las categorías gramaticales asignadas por el analizador morfológico. Una salida típica de un analizador sintáctico, en la cual se muestran las funciones sintácticas tiene la siguiente forma:



Una demostración de una analizador sintáctico se encuentra en la página de la empresa Connexor, cuya dirección en Internet es http://www.connexor.com/demos/syntax_es.html

c. Procesamiento semántico: El objetivo es obtener el significado de las palabras y - a partir de éstas - de las oraciones que forman. Esto se logra - por ejemplo - mediante el uso de tesauros de términos donde se tienen conceptos y distintos tipos de relaciones éstos. Un ejemplo de herramienta de esta área es WordNet, un sistema de referencia léxica que organiza sustantivos, verbos, adjetivos y adverbios en conjuntos de sinónimos que representan un concepto léxico subyacente. Suponga la búsqueda del termino "baby" en Wordnet. Como respuesta se obtienen los siguientes nodos, denominados "synsets", donde cada uno hace referencia al término buscado en un contexto particular.

1. baby, babe, infant -- (a very young child (birth to 1 year) who has not yet begun to walk or talk; "isn't she too young to have a baby?")

2. baby, sister -- (sometimes used as a term of address for attractive young women)

3. baby -- (a very young mammal; "baby rabbits")

4. baby -- (the youngest member of a group (not necessarily young); "the baby of the family"; "the baby of the Supreme Court")

5. child, baby -- (an immature childish person; "he remained a child in practical matters as long as he lived"; "stop being a baby!")

6. baby -- (a project of personal concern to someone; "this project is his baby")

De la base de datos Wordnet, existe una versión Europea denominada EuroWordnet que adicionalmente funciona como un diccionario multilingüe, vinculando el euskara, el castellano, el catalán, el inglés y el francés.

Si bien estas técnicas lingüísticas asisten al proceso de indexación, al momento, no han aportado mejoras significativas a los sistemas de recuperación de información respecto de las técnicas no lingüísticas, se espera que conforme evolucione el procesamiento del lenguaje natural, los métodos lingüísticos brinden capacidades que permitan lograr mejores desempeños en el área de RI.
Referencias

[24] Grossman, D. y Frieder, O. “Information Retrieval. Algorithms and Heuristics”. Kluwer Academic Publishers. 1998.

[32] Lancaster, F.W. “Information retrieval systems: characteristics, testing and evaluation”. New York: John Wiley & Sons. 1979.

[62] van Slype, G. “Los lenguajes de indización. Concepción, construcción y utilización en los sistemas documentales”. Editorial Pirámide, Madrid. 1991.

No hay comentarios.: