El profesional de la información


Octubre 1995

Teoría de recuperación de información: modelos fundamentales y aplicaciones a la gestión documental

Por Lluís Codina

La teoría de recuperación de información es una especialidad académica con una (relativamente) larga tradición en Estados Unidos, donde se cultiva en las universidades y los laboratorios por lo menos desde los años 60.

Lluís CodinaConceptualmente, la recuperación de información (RI en adelante) es una operación que consiste en la interpretación de una necesidad de información con el fin de seleccionar los documentos más relevantes capaces de solucionarla.

Sin embargo, esta aparente sencillez conceptual encierra diversos problemas cognitivos que distan mucho de ser sencillos, a saber:

  • identificar y representar necesidades de información;
  • identificar y representar el conocimiento contenido en documentos;
  • seleccionar los documentos más relevantes de acuerdo con los dos problemas anteriores;
  • mostrarlos al usuario.

La teoría de RI estudia el desarrollo de modelos conceptuales relacionados con las cuatro operaciones mencionadas, con el objeto de facilitar no sólo su adecuada comprensión, sino también para facilitar su automatización mediante el uso de ordenadores.

Desde que los ordenadores se utilizan en documentación las operaciones de RI forman el núcleo de la cadena documental, siendo además aquí donde adquieren sentido (en gestión de información cognitiva, es decir, de información cultural, científica o técnica), y no, en cambio, en la gestión de datos o de documentos administrativos. Por este motivo, aunque la RI es un campo interdisciplinar en el que intervienen matemáticos, informáticos, psicólogos, documentalistas, etc., su identificación con la Documentación y la Biblioteconomía es mayor que con otras ciencias o profesiones.

El programa PC Search proporciona hasta cuatro algoritmos distintos de ordenación, entre los que el usuario puede elegir mediante un menú, o puede dejar uno de ellos por defecto.

Ahora se recogen sus frutos

En cualquier caso, y después de muchos años de mantenerse casi como un entretenimiento académico o como una curiosidad de laboratorio, la teoría de recuperación de información ha saltado a la más candente actualidad tecnológica debido a estos dos hechos:

1º A partir del aumento incesante de potencia de los microordenadores y de su paralelo abaratamiento, cada vez más empresas de productos de gestión documental han decidido incorporar en sus programas alguno de los fundamentos teóricos de la recuperación de información. De esta manera están introduciéndose de una forma casi imperceptible en el mercado de consumo a través, por ejemplo, de programas como Acrobat (Adobe) y Notes (Lotus); pero también a través de programas más especializados en gestión documental como Personal Librarian (CSi), PC Search (Chemdata) y BasisPlus (Centrisa).

2º El aumento de la oferta informativa de Internet ha provocado la imperiosa necesidad de instrumentos que sean capaces de filtrar la información para separarla del simple ruido. Para ello, muchos sistemas de búsqueda en Internet ponderan la relevancia de los ítemes de información encontrados para poder ofrecerlos a los usuarios en un orden no aleatorio, e incluso para rechazar aquellos que no superen un determinado umbral de utilidad esperada que puede fijar el usuario. Esa filosofía es deudora de la teoría de RI y de su concepto de relevancia, así como de los algoritmos que utilizan esos programas para filtrar la información.

Investigación teórica en documentación

En lo que sigue, se examinarán los fundamentos de la RI y se discutirá su aplicación a la gestión documental, pero antes parece oportuno discutir la utilidad de la teoría en documentación y, en general, en cualquier ámbito científico o profesional.

Digamos, de paso, que resulta doloroso comprobar con cuánta frecuencia en nuestro país se utilizan los términos "académico" o "teórico" como descalificación, como sinónimos de algo superfluo, inútil o, simplemente, de pérdida de tiempo; asociación de ideas que dice más bien poco sobre nuestra cultura científica, nuestro respeto por la ciencia básica o sobre el concepto que se tenían ganado nuestras universidades.

Sin embargo, es sabido que sin trabajos teóricos y sin académicos que los cultiven, no existen modelos conceptuales, y sin modelos conceptuales no existen después desarrollos profesionales ni industriales. Crudamente: por muy importante que sea la ciencia aplicada, ningún país del mundo le aportará jamás nada si antes no es capaz de cultivar la ciencia básica.

Por ejemplo, sin modelos teóricos, y absolutamente académicos, como los que desarrollaron Alan Mathison Turing en los años 30 y John Von Neumann en los 40, no hubieran existido los primeros ordenadores de los años 50 y, por ende, los muy pragmáticos microordenadores actuales, que siguen todavía los modelos mencionados.

Limitándonos a nuestro terreno, sin los hallazgos de teóricos como Cornelis Joost Van Rijsbergen o Gerard Salton y, en general, sin el intenso trabajo sobre teoría de RI desarrollado principalmente por las universidades anglosajonas, su industria del software no ocuparía probablemente la posición dominante que ahora ostenta.

En cambio, en nuestro país, las pocas veces que alguien ha pretendido ofrecer resultados en ese terreno, ha tenido que soportar ver cómo su trabajo era descalificado bajo la grave acusación de haber producido algo "demasiado teórico" (¿cómo puede algo ser demasiado teórico?). Pues bien, sin trabajos "demasiado teóricos" o "muy académicos", trabajos que, aparentemente, "no sirven para nada práctico", es imposible innovar. Así que, la versión actual del "que inventen ellos", parece ser ahora el "que teoricen ellos".

Disculpe el lector este largo prólogo, pero en tiempos en que tanto pseudo-pragmatismo nos está llevando a una de las peores épocas de la historia reciente (altas tasas de paro estacionario, guerras en Europa como no se veían desde hacía décadas, retroceso global de continentes enteros, como Africa o Sudamérica, fanatismos religiosos y étnicos, etc.) parece más necesario que nunca defender el simple amor a la ciencia y el conocimiento por el conocimiento. Amable lector: no descalifique usted algo por ser académico o por ser demasiado teórico, sino por estar mal hecho, por ser erróneo o por estar mal planteado.

Fundamentos de recuperación de información

Según el modelo más aceptado actualmente, la recuperación de información consiste en un proceso en el que intervienen tres elementos:

  • una colección de ítemes de información, tales como documentos, que están registrados en un depósito de información (por ejemplo en una base de datos),
  • una serie de preguntas que traducen las necesidades de información de los usuarios y, finalmente,
  • una función de comparación documentos/preguntas que genera como salida documentos relevantes (véase la fig. 1). Recuperar información, entonces consiste en buscar los documentos que exhiben un mayor parecido con la pregunta.

Figura 1: El proceso de recuperación de información (adaptado de Salton, 1989)

La hipótesis subyacente en el modelo anterior es que una forma de juzgar la relevancia de un documento es medir su grado de similitud con la pregunta, y que la forma de representar ambas entidades (preguntas y documentos) es mediante el uso de información textual, aunque las entidades en sí mismas no sean textuales.

En general, para comparar el grado de parecido entre dos entidades es necesario identificar algún grupo de propiedades medibles y después establecer un procedimiento que permita calcular cuántas de éstas propiedades comparten ambas entidades.

Documentos como vectores

Aplicando lo anterior a la RI, se considera entonces que un documento se caracteriza como un conjunto de términos (palabras o frases) que representan su contenido. Estos términos pueden obtenerse por derivación, mediante indización automática, o por asignación, mediante indización intelectual con utilización de un lenguaje documental externo, circunstancia que recoge el modelo de RI ampliado de la figura 2.

Figura 2: Modelo ampliado de RI con inclusión de un lenguaje documental (adaptado de Salton, 1989)

Así, y siguiendo el modelo que popularizaron Salton y McGill (1983), si tenemos un conjunto T de 5 términos, tal que, por ejemplo,

T = (Informática, Documentación, Telecomunicaciones, Lingüística, Estadística)

para representar los temas de los documentos de una base de datos, podemos generalizar y transformar la misma expresión en:

T = (t1, t2, t3, t4, t5) (1)

donde t1, t2, etc., simbolizan cualesquiera términos.

A partir de aquí podemos representar un documento como un vector que adopta, por ejemplo, la forma siguiente:

Dk = <1 1 1 0 0>

que significa que el documento k contiene los términos t1, t2 y t3 del conjunto T, lo cual se indica con sendos 1 en las respectivas posiciones, pero no contiene el término t4 ni elt5, cosa que se indica mediante diversos 0 también en sus respectivas posiciones.

Un vector es una estructura consistente en un número fijo de elementos (en nuestro ejemplo, 5) en la cual la posición de cada uno es significativa.

Cuando un vector posee n elementos se dice que es de longitud n. Por ejemplo, una base de datos que utilice cinco mil términos de indización distintos, generará vectores con una longitud de cinco mil ceros o unos. Cada documento dará lugar a un vector con una configuración característica y diferente.

Las preguntas también pueden representarse como un vector de la misma forma. Por ejemplo:

Ph= <0, 1, 0, 1, 1>

significa que una determinada necesidad de información ha sido indizada con los términos t2, t4 y t5, formando así la pregunta Ph.

Ahora podríamos comprobar qué documentos de la base de datos se parecen más a la pregunta Ph y ordenarlos en función de esa semejanza, estableciendo en algún punto un umbral por debajo del cual se consideraría que un documento ya no es relevante.

Supongamos, para simplificar, que tenemos únicamente dos documentos (Di y Dj) en la base de datos, los cuales presentan los siguientes vectores respectivos:

Di = <1, 1, 1, 0, 0>

Dj = <1, 1, 0, 0, 1>

Función de comparación

La selección del documento más parecido a la pregunta se realiza calculando cuál de los dos documentos posee más elementos en común con ella.

Existen diversas maneras de efectuar ese cálculo (puede consultarse Salton y McGill, 1983, así como Frakes y Baeza-Yates, 1992). Una de las más sencillas consiste en el sumatorio de los productos. Es decir, los dos números de cada columna se multiplican entre sí, y los resultados se suman, tal como se ilustra a continuación:

Ph=0, 1, 0, 1, 1

Di= 1, 1, 1, 0, 0

----------------------------

0 + 1 + 0 + 0 + 0 = 1

Ph=0, 1, 0, 1, 1

Dj= 1, 1, 0, 0, 1

-----------------------------

0 + 1 + 0 + 0 + 1 = 2

De acuerdo con lo anterior, en este caso el documento Dj es el más parecido a la pregunta Ph.

Si en lugar de dos documentos, en la base de datos hubiera miles, el procedimiento sería el mismo.

Como semejante cálculo podría ser muy largo, en la práctica se utilizan dos procedimientos:

  • o bien se realiza primero una recuperación convencional, utilizando un OR booleano entre los términos de búsqueda, y después se aplica el algoritmo de cálculo de relevancia al subconjunto resultante,
  • o bien se utiliza una técnica de ordenación de los documentos basada en espacios vectoriales y en agrupamiento por clusters (grupos estadísticamente semejantes) y centroides (elemento más representativo de cada cluster), que facilita mucho el proceso de comparación.

En cualquier caso, el resultado de la búsqueda proporcionaría una lista de documentos ordenados según su grado de semejanza con la pregunta, y la hipótesis implícita aquí es que ello equivaldría a ordenarlos en función de su grado de relevancia.

Otras fórmulas básicas

Para generalizar, los conceptos y las operaciones anteriores se pueden formalizar como se indica a continuación (siguiendo básicamente a Salton y McGill, 1983) y tendremos así las dos primeras ecuaciones fundamentales de la RI:

Representación de un documento Di como un vector de longitud n:

Di = <di1, di2, ... din> (2a)

-Representación de una pregunta Ph como un vector de longitud n:

Ph = <ph1, ph2, ... phn> (2b)

Donde di1 representa el valor del término t1 asignado al documento i, di2 el valor del término t2 asignado al documento i, etc.; y donde ph1 representa el valor asignado al término t1 de la pregunta h, etc. En un sistema sin ponderación (v. más abajo), el valor de un término ti sólo puede ser 0 (no asignado) o 1 (asignado)

La ecuación que permite realizar el cálculo del grado de similitud entre un documento Di y una pregunta Ph, se formaliza así:

SIM (Di, Ph) = S di1 * ph1 (3)

que se lee así: la similitud (SIM) entre el documento Di y la pregunta Ph es igual al sumatorio de los productos de cada par de elementos de los vectores respectivos.

Ejemplo. Sean los vectores de un documento y de una pregunta, respectivamente:

Di = <1, 1, 0, 1, 0>

Ph = <0, 1, 0, 1, 0>

Entonces, la similitud es:

SIM (Di, Ph) = (1*0) + (1*1) + (0*0) + (1*1) + (0*0) = 0 + 1 + 0 + 1 + 0 = 2

Ponderación e indización automáticas

La ponderación que acabamos de ver otorga mayor peso a aquellos documentos que presentan el mayor número absoluto de ocurrencias de los términos de búsqueda, lo cual es mucho mejor que una ordenación al azar, pero a veces no produce buenos resultados.

Por tanto, en lugar de que cada elemento del vector asuma un valor igual a 0 (cuando el término no se asigna al documento) o igual a 1 (cuando el término que se asigna), podemos pensar en establecer grados, es decir, en otorgar pesos, para expresar en qué medida un documento parece referirse a un tema. Esta operación de denomina ponderación (weighting).

Es evidente que la frecuencia con la cual aparece un término en un documento es una buena indicación de su contenido. Por ejemplo, en este artículo se mencionan muchas veces las palabra "indización", "cálculo", "ponderación", "relevancia", etc., y, en cambio, se mencionan poco, aunque también aparecen, expresiones como "tesauros" o "lenguaje documental". Un buen procedimiento de recuperación con utilización de pesos, debería deducir que este artículo podría ser relevante para un búsqueda sobre "indización mediante cálculo de relevancia y ponderación de términos", y muy poco relevante, en cambio para una búsqueda sobre "construcción de tesauros y utilización de lenguajes documentales".

Así, en sistemas de RI que utilizan pesos, cada elemento del vector podrá asumir un valor cualquiera entre 0 y 1; y el vector de un documento Di puede tener esta forma:

Di = <0.8, 0.75, 0.0, 0.9, 0.5>

lo que significa que el término t1 tiene un peso, en ese documento, de 0.8; el término t2, de 0.75; el t3 no está asignado, etc. Cuando se utilizan pesos en lugar de los valores binarios 0 y 1, las ecuaciones anteriores permanecen igual, ya que lo único que cambia es que ahora es necesario un procedimiento adicional para calcular el peso proporcional de cada término en el documento.

Para tal procedimiento, uno de los modelos de ponderación más simples, tal como lo presentan Salton y McGill (1983), es el siguiente:

FRECik

PESOik = --------- (4)

DOCFRECk

que se lee así: el peso del término k en el documento i es directamente proporcional al número de veces que ocurre el término k en el documento (FRECik) e inversamente proporcional al número de documentos en los que ocurre (DOCFRECk). Esta medida recibe también el nombre de IDF (inverse document frequency).

Ponderando de esa manera es posible discriminar documentos que abordan un tema superficialmente de otros en los cuales ese mismo tema se toca con mayor profundidad. La asignación de pesos a los términos de un documento se utiliza, pues, con dos objetivos distintos:

  • Mejorar la fiabilidad del cálculo de relevancia y producir mejores ordenaciones de documentos.
  • Realizar indización automática de documentos, en cuyo caso la IDF sirve para seleccionar los términos de indización, ya que se determina un umbral por encima del cual los términos candidatos se rechazan por tener un escaso poder de discriminación, o se unen en frases para mejorar su poder de resolución; y los que se sitúan por debajo del umbral se rechazan por ser demasiado específicos, o se unen a otros términos en clases de sinonimia para disminuir su especificidad.

Optativamente, algunos sistemas de gestión documental, como Notes (Lotus), permiten ponderar también los términos de la pregunta, indicando al sistema cómo es de importante cada uno de los términos para quien hace la pregunta. De este modo, el sistema podrá ponderar con valores más altos aquellos documentos que posean mayor número de los términos marcados por el usuario como preferentes.

Otros modelos

Sobre cada una de las fórmulas presentadas antes existen diversas variantes, así como algoritmos para implementarlas en sistemas de recuperación de información. Aquí nos hemos limitado a presentar las más básicas. Para conocer otros formalismos y algoritmos pueden consultarse las obras citadas (v. bibliografía al final).

En particular, la ponderación de términos y la ordenación por grado de relevancia puede hacerse de manera más sofisticada, por ejemplo, normalizando los resultados según la extensión del documento, de forma que, a igualdad del índice de IDF, los documentos cortos sean más relevantes ya que conforme aumenta el tamaño del documento aumenta la probabilidad de que ocurra cualquier término y, en el límite, en un documento infinito todos los términos tenderían a ocurrir con cualquier frecuencia.

Se han desarrollado así mismo algunos algoritmos de RI para evaluar la tendencia de pares de términos a co-ocurrir, en cuyo caso se pueden construir también frases de indización tales como <sistema experto>, por ejemplo, en lugar de palabras sueltas, como <experto> y <sistema>. Ello producirá dos efectos:

  1. En el índice de la base de datos figurará obviamente una entrada como "Sistema experto" en lugar de "experto" y "sistema"
  2. El sistema puede reconocer entonces esas frases cuando ocurren en los documentos y asignarlas como descriptores.

Otros refinamientos adicionales en indización automática pueden consistir en asignar mayores pesos a los términos que ocurren en determinadas zonas clave del documento, tales como los títulos; o a los documentos que presentan más variedad de términos de la pregunta; en utilizar raíces de términos en lugar de formas flexionadas (por ejemplo, bibliotec* en lugar de biblioteca, bibliotecas, biblioteconomía); en utilizar diccionarios de sinónimos para formar clases de términos, etc. Para éstas y otras ideas sobre teoría de RI y métodos de indización automática, además de los citados puede consultarse D. Harman, 1992 y 1994.

Modelo vectorial

Existe otro modelo de comparación que está basado en la utilización de espacios vectoriales de n dimensiones, como ya se indicó más arriba. Según ese modelo, desarrollado principalmente por Salton (1983), puesto que los documentos se representan como vectores, los documentos pueden situarse en un espacio vectorial de n dimensiones, es decir, con tantas dimensiones como elementos tenga el vector. A nosotros nos cuesta imaginar un espacio vectorial de más de tres dimensiones, pero matemáticamente resulta rutinario tratarlos.

Situado en ese espacio vectorial, cada documento encaja entonces en un lugar determinado por sus coordenadas, al igual que en un espacio de tres dimensiones cada objeto queda bien ubicado si especificamos sus tres coordenadas espaciales.

Se crean así grupos de documentos que quedan próximos entre sí a causa de las características de sus vectores. Estos grupos o clusters están formados, en teoría, por documentos similares, es decir, por grupos de documentos que son relevantes para la misma clase de problemas de información. Los grupos de clusters pueden organizarse, a su vez, en torno a un centroide, que es un documento representativo de las propiedades medias de los documentos del cluster.

En una base de datos documental organizada de esta manera, resulta muy rápido calcular qué centroide se parece más a una pregunta, y es muy rápida también la ordenación por relevancia, puesto que los documentos ya están agrupados por su grado de semejanza de forma natural.

Cuando se formula una pregunta en la fase de interrogación, también se la deja caer en este espacio vectorial, y así, aquellos documentos que queden más próximos a ella serán, en teoría, los más relevantes.

Están en desarrollo otros modelos basados en el procesamiento del lenguaje natural, en los cuales una base de conocimientos intentaría interpretar documentos textuales y generar listas de descriptores más allá del simple reconocimiento de cadenas de caracteres y del cómputo de frecuencias. Estos modelos, sin embargo, parece que no están aún demasiado maduros, aunque existen ya algunas aplicaciones operativas, como el sistema propietario desarrollado por Carnegie Group que categoriza (asigna categorías) a los despachos de la agencia Reuter's; o como el sistema MAI (Machine aided indexing) de la Nasa (June P. Silvester y Michael T. Genuardi, 1994) que interpreta textos y propone descriptores extraídos de un tesauro.

Aplicaciones actuales de la teoría de RI

Aparte de su posible elegancia intelectual, ¿qué aplicaciones tienen estas teorías y formalismos? Por lo pronto, cada vez más sistemas de gestión documental como los citados al principio han decidido incorporar, de una manera más o menos transparente, el cálculo de relevancia al preparar los documentos para presentarlos al usuario, en lugar de presentar los documentos aleatoriamente; otro tanto sucede con los principales distribuidores de bases de datos documentales (Dialog, por ejemplo, con su instrucción target).

Otra aplicación muy conocida de los principios enunciados podemos verla en los sistemas de búsqueda tipo Wais que actúan en Internet. La mayoría de estos servicios de localización de información, incluyendo los así llamados agentes inteligentes (herederos de los fantasmales knowbots, v. IWE-7, septiembre de 1992, p. 9), utilizan métodos de ponderación del grado de relevancia de las informaciones recuperadas antes de mostrarlas a los usuarios. En el caso de Internet, es costumbre que tales servicios o agentes asignen un número arbitrario al ítem de información más relevante, por ejemplo, 1000, y los demás ítemes adquieren entonces un número que expresa su importancia relativa respecto al primero.

En general, la idea que subyace tras estas ordenaciones es más sutil e importante de lo que parece si se examina con cuidado. Cuando un usuario formula una pregunta a una base de datos documental espera recuperar una cantidad n de documentos que satisfagan su necesidad de información. Pero el valor de n es desconocido, pueden ser dos o tres documentos, o pueden ser miles.

La situación habitual ante una gran cantidad de documentos recuperados consiste en utilizar nuevos términos de búsqueda combinados por operadores booleanos, para ir restringiendo el número total, y dejarlo así por debajo del punto de inutilidad (David C. Blair, 1990), es decir, por debajo de aquella cantidad de información que el usuario preferirá no leer, dado su volumen.

Sin embargo, para que la operación anterior tenga éxito, debe tenerse un buen conocimiento de la base de datos, un buen dominio de la lógica booleana y un buen conocimiento del tema de búsqueda, además de tiempo y paciencia y, al final, puede que las operaciones booleanas reduzcan el tamaño del conjunto recuperado a costa de perder documentos relevantes (Blair, 1990).

En cambio, con la ordenación por grado de relevancia, no importa lo grande que sea el número de documentos recuperados; el usuario sabe que justo los primeros son los más relevantes y, por tanto, le bastará con atender sólo a aquellos documentos que hayan superado un cierto umbral de relevancia, y como el primer documento es el más pertinente, el segundo lo es sólo un poco menos, etc. Él puede situar el umbral donde crea conveniente, según el tiempo de que disponga, el tamaño de los documentos, la complejidad del tema, etc.

Importancia del orden en que lee el usuario

Finalmente cabe señalar un aspecto muy importante que emerge de la ordenación de la información y que tiene la virtud de cambiar la cualidad de relevancia de los documentos.

Supongamos una recuperación documental estándar que proporciona cinco documentos A, B, C, D y F a un usuario. Éste los examina por el orden aleatorio en el cual le son mostrados por un sistema convencional y juzga que A es pertinente, también el B, el C, el D y el F, y se siente afortunado por haber encontrado tanta información y tan certera.

Pero supongamos que el documento A tiene un grado de relevancia del 50%; el B del 60%, el C y el D del 80% y el F del 100%. Quizá, si el sistema le hubiera mostrado los documentos ordenados por grado de relevancia, hubiera podido obtener toda la información necesaria del documento F, y entonces el A, B, C y D, hubieran sido documentos relativamente irrelevantes, desde el momento en que hubieran sido redundantes y/o menos precisos, al consultarlos después que el F y, así, hubiera podido evitar su lectura, con el consiguiente ahorro de tiempo.

Ahora bien, una vez presentada la interpretación anterior, cabe examinar el otro lado de la moneda y hacer las siguientes tres observaciones:

1. La ordenación por grado de relevancia será tan eficiente como lo sea el algoritmo o el modelo conceptual que se encuentre tras ella. Un algoritmo poco refinado que, por ejemplo, sólo tenga en cuenta el número absoluto de ocurrencias de cada documento, dará resultados muy pobres e incluso sorprendentemente erróneos.

2. La ordenación de relevancia no sustituye, necesariamente, la recuperación por medio de operadores booleanos, sino que es un medio para entregar los resultados ordenados por un criterio mucho más riguroso que el simple azar. En ocasiones, la búsqueda asociativa, que es como se denomina a la utilización del cálculo de relevancia como alternativa a los operadores booleanos, puede ser muy útil, pero en ocasiones puede no serlo tanto. En ese caso, la relevancia debe considerarse exclusivamente como un factor de clasificación más racional que el orden aleatorio. Es la estrategia que adoptan, por ejemplo, sistemas como Notes, Acrobat, PC Search y BasisPlus, los cuales no dejan de lado el álgebra de Boole para preparar ecuaciones de búsqueda, pero ordenan por defecto, y de manera transparente al usuario, los documentos recuperados según alguno de los algoritmos de relevancia mencionados.

3. Hay que recordar que los ordenadores actuales no son capaces de interpretar símbolos, sino que se limitan a leer y a comparar cadenas de caracteres.

Los modelos de la RI sólo pueden paliar un poco la total falta de inteligencia de los ordenadores actuales, intentando darles algo de la experiencia y del conocimiento de los profesionales de la documentación. Parte de esta experiencia es la que se encuentra encapsulada en los mencionados modelos de RI, pero nada sustituye, hoy por hoy, a un operador humano, que que puede interpretar símbolos y reconocer temas por debajo de la estructura superficial de un texto. Por el momento, ningún sistema automático es capaz de ofrecer un mecanismo fiable para detectar, por ejemplo, que un documento donde se explica "lo cara que está la vida", está hablando de inflación.

Por este motivo diversas investigaciones vienen confirmando que, hoy por hoy, las técnicas de indización automáticas y la ordenación por relevancia son métodos complementarios, antes que excluyentes, respecto a la indización intelectual (Carol Tenopir y J. S. Ro, 1990; David C. Blair, 1990; Susanne M. Humphrey, 1994), también denominada, por su poder para eludir la estructura superficial de los documentos, indización conceptual.

Empresas y productos mencionados:

  • Acrobat, Adobe. Tel.: +34-3-487 23 42
  • BASISplus, Centrisa. Tel.: +34-3-207 55 11
  • Notes, Lotus. Tel.: +34-3-419 01 04
  • PC Search, Chemdata. Tel.: +34-1-435 22 02
  • SmarText, Lotus. Tel.: +34-3-419 01 04
  • Windows Personal Librarian, Csi. Tel.: +34-1-725 63 74

Bibliografía

Blair, D.C. 1990. Language and representation in information retrieval. Amsterdam: Elsevier, 1990, 335 p.

Codina, Lluís. 1995. "Recuperación de información e hipertextos: sus bases lógicas y su aplicación a la Documentació periodística". En: Fuentes, M. Eulàlia (editora). Manual de Documentación periodística. Madrid: Síntesis, 1995, p. 212‑230

Frakes, W. B.; Baeza‑Yates, R. (editors). 1992. Information retrieval: data structures & algorithms. Englewood Cliffs: Prentice Hall, 1992, 504 p.

Harman, D. 1992. "Ranking algorithms". En: Frakes, W. B.; Baeza‑Yates, R. (editors). Information retrieval: data structures & algorithms. Englewood Cliffs: Prentice Hall, 1992, p. 363‑392

Harman, D. 1994. "Automatic indexing". En: Fidel, Raya et al.(editors). Challenges in indexing electronic text and images. Medford, NJ: Learned Information, 1994, p. 247‑264.

Humphrey, S. M. "Knowledge-based systems for indexing". En: Fidel, Raya et al.(editors). Challenges in indexing electronic text and images. Medford, NJ: Learned Information, 1994, p. 161-175.

Salton, G. 1989. Automatic text processing: the transformation, analysis, and retrieval of information by computer. Reading (MA): Addison‑Wesley, 1989, 530 p.

Salton, G.; McGill, M. J. 1983. Introduction to modern information retrieval. Tokyo: McGraw‑Hill, 1983, 448 p.

Silvester, J. P.; Genuardi, M. T. 1994. "Machine aided indexing from the analysis of natural language text". En: Fidel, Raya et al.(editors). Challenges in indexing electronic text and images. Medford, NJ: Learned Information, 1994, p. 201-219.

Tenopir, C.; Ro, J. S. 1990. Full text databases. New York: Greenwood Press, 1990, 252 p.

Turing, A. M. Mechanical intelligence. Selección de trabajos de Alan Mathison Turing (1912-1954). D. C. Ince(editor). Amsterdam: North Holland/Elsevier, 1992, 227 p.

Van Rijsbergen, C. J. Information retrieval (2nd ed.). London: Butterworths, 1979, 208 p.

Von Neumann, J. Papers of John von Neumann (1903-1957) on computing and computer theory. Aspray, W. y Burks, A. W. (editors). Charles Babbage Institute reprint series for the history of computing, v. 12. Cambridge, Mass.: MIT Press. Los Angeles: Thomas Publishers, 1987, 624 p.

Lluís Codina. Universidad Pompeu Fabra, Barcelona.

Tel.: +34-3-542 22 65; fax: 542 23 02

Correo-e: codina_lluis ARROBA fcsc.upf.es

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1995/octubre/teora_de_recuperacin_de_informacin_modelos_fundamentales_y_aplicaciones_a_la_gestin_documental.html