El profesional de la información


Febrero 1994

Sistemas de gestión documental: situación, problemas actuales y principales novedades tecnológicas

Por Lluís Codina
Profesor de Información y Documentación en la Universidad Pompeu Fabra, de Barcelona, y colaborador habitual de IWE.

Aunque no han experimentado ningún cambio revolucionario, las tecnologías informáticas de gestión documental han evolucionado considerablemente y han dado lugar a interesantes novedades, tales como la ordenación de documentos por grado de relevancia o una clase de programas llamados groupware o docucéntricos, que hacen del documento el centro de trabajo en las empresas. Posiblemente, algunas de estas novedades harán cambiar la forma en que los documentalistas desarrollarán su trabajo en el futuro. Sin embargo, en la actualidad están favoreciendo que la confusión en torno a qué son y qué no son programas de gestión documental crezca en lugar de disminuir, y por eso es muy importante establecer con claridad de qué se está hablando cuando se trata de sistemas (o de software) de gestión documental.

Recuperación de información y bases de datos

El adjetivo "documental" se predicaba, hasta ahora, de los programas de bases de datos (bdds) para explotar un fondo documental compuesto por documentos científicos, técnicos y culturales.

Esto significa que estos programas proporcionan a los profesionales de la documentación los instrumentos necesarios para que los documentos puedan ser descritos y analizados de acuerdo con los métodos y técnicas propios de las Ciencias de la Documentación (o de la Ciencia de la Información, como diría un angloparlante), implementar políticas de indización, utilizar lenguajes documentales, controlar la indización, exportar o importar documentos en formatos normalizados, etc. Además, esta clase de programas posibilita la búsqueda para descubrir qué entidades satisfacen una necesidad de información; no para saber más sobre un entidad previamente conocida.

Por todo ello, difieren en aspectos fundamentales de los sistemas de gestión de bdds ofimáticas o de aplicación general, que se utilizan para gestionar documentos que en general no necesitan ser recuperados por su contenido, puesto que no tienen contenido en el sentido cognitivo del término; sino únicamente por aspectos tales como su fecha de creación, su emisor, su destinatario o su función administrativa factura, albarán, orden de pago, etc. en el circuito de gestión de la empresa. En este último tipo de bdds, se parte de una entidad conocida para saber más sobre ella, o para agruparla de una forma determinada; no tanto para descubrir qué entidades cumplen una condición. Además, en estas bdds, por un lado, la información es muy volátil: soportan una actividad constante de altas, bajas y actualizaciones y, por otro lado, esta información es siempre muy coyuntural y sólo interesa a los gestores de la empresa, mientras que la información científica y técnica es susceptible de interesar al conjunto de la humanidad.

Sin embargo, con la ampliación del tipo de datos que los sistemas ofimáticos (que suelen identificarse con sistemas relacionales) pueden ahora tratar, han comenzado a aparecer programas que pueden gestionar no sólo datos cifras de ventas, o listados de operaciones bancarias, etc., sino el documento en su integridad: correspondencia, informes, contratos, facturas, etc. Esto pueden realizarlo de diversas formas: bien por la vía de la imagen facsímil del documento, asociada a su descripción en una tabla; bien por la vía de los llamados campos blob (binary large objects), que actúan como punteros hacia objetos digitalizados (documentos, imágenes, sonidos, etc.); bien por la vía de los documentos compuestos mediante la incrustación y vinculación de objetos (por ejemplo, mediante la técnica OLE object linking and embedding, desarrollada por Microsoft).

Como resultado de todo lo anterior, la industria predica ahora quizá con toda propiedad el adjetivo documental indistintamente a los dos tipos de sistemas, pese a que representan soluciones tecnológicas y filosóficas totalmente diferentes, y pese a que emplear una de ellas cuando se requiere la otra puede causar graves problemas en la implementación de sistemas de información.

Así pues, la industria informática, por motivos de marketing o por mal conocimiento del sector, ofrece como documentales soluciones que sirven perfectamente para gestionar documentos administrativos, pero no para gestionar documentación científica, técnica o cultural, es decir, aquella que forma el núcleo típico de la actividad documental.

Bdds versus recuperación de información

Ante esta situación, los documentalistas tenemos dos opciones: una, resignarnos a convivir con otro término ambiguo (¡uno más!), lo cual supondrá que, a partir de ahora, decir que un programa es documental es no decir nada, puesto que puede significar cualquier cosa.

Dos: utilizar un término distinto para cada clase de programas. Es la solución que hace años utiliza el mundo anglosajón y parece que no le va mal, puesto que esta distinción ha llegado a calar, por lo menos, entre los técnicos informáticos, cosa que ya es mucho comparada con la situación en nuestro país. Así, para los anglosajones, existe una diferencia entre sistemas de gestión de bdds ( sgbd ) por un lado y sistemas de recuperación de información ( SRI ), sistemas basados en texto o sistemas de recuperación textuales, por otro. Tal vez ha llegado el momento de que en nuestro país los documentalistas empecemos a ensayar esta solución, de manera que el término sgbd , con el adjetivo añadido de documental o no, se reservaría para sistemas de gestión de documentación administrativa; y el término SRI, se aplicaría a los sistemas documentales en el sentido de las Ciencias de la Documentación, es decir a sistemas capaces de gestionar documentos científicos, técnicos o culturales, y de recuperarlos según su contenido.

Estructura de un sistema de recuperación de información

La estructura de un SRI apenas ha experimentado variaciones en los últimos diez años, y la principal novedad histórica en este terreno ha radicado en su implantación en el mundo de los microordenadores, que culminará, sin duda, al final de la década de los noventa.

En cualquier caso, todos los programas de SRI suelen disponer de un motor de recuperación con una estructura tripartita que consiste, por lo menos, en:

  1. Un índice que permite acceder a los documentos en base a su contenido, conocido como fichero invertido y que suele actuar en conjunción con una lista de palabras vacías, no aptas para la búsqueda;
  2. Un modelo de registro textual (con texto) que admite campos de extensión variable o no predefinida;
  3. Un lenguaje de interrogación basado en operadores booleanos y en operadores de proximidad. Este es el modelo clásico y es el que siguen, por ejemplo, las grandes bdds documentales de los servicios de distribución de información en línea de todo el mundo, tales como Dialog, así como los que permiten crear bdds documentales con microordenadores. Los sistemas de RI más recientes han realizado diversos refinamientos sobre este modelo, le han añadido algunas prestaciones de hipertexto (posibilidad de recuperar información a partir de determinadas palabras del texto visualizado) o han ampliado las posibilidades de recuperación añadiendo cálculo de co-ocurrencias de términos, ordenaciones por grado de pertinencia, etc., pero no lo han sustituido.

El fichero invertido, como es sabido, es la lista de términos (simples o compuestos) creada automáticamente por el motor de recuperación del programa documental. Esta lista está organizada en sí misma como una base de datos, cuyos registros tienen sólo dos campos: uno con el término y otro que indica en qué registros de la bdd y en qué posiciones aparece ese término. Por ejemplo, este registro del fichero invertido: agua:ti,4;ab,3,14,27:020455 indica que el término "agua" se encuentra en la posición 4ª del campo título y en las posiciones 3ª, 14ª y 27ª, del campo resumen, del registro 20.455 de una base de datos.

Esta técnica se basa en la hipótesis de que el tema de un documento puede representarse por las palabras que aparecen en él, aunque para mejorar el rendimiento, los motores de recuperación documentales pueden trabajar con una lista de palabras vacías, con diccionarios de sinónimos o, mejor aún, con un thesaurus.

El lenguaje de recuperación suele basarse en el álgebra de Boole, complementada, por lo menos, con operadores de proximidad. Últimamente, algunos programas han añadido funciones que permiten calcular el grado de relevancia de un documento para satisfacer una consulta. En otros se calcula la ocurrencia de términos, permitiendo recuperar documentos similares tomando como modelo uno de ellos, o una porción de texto. Para éstos y otros cálculos, se suele utilizar la llamada función inversa del documento, que relaciona la frecuencia absoluta del término en cada documento con la frecuencia de aparición del término en el conjunto de la bdd. En general, la gestión documental está marcada por un doble factor que los buenos programas de RI deben contemplar: primero, que el texto es uno de los medios más poderosos para representar y acceder a la información, hasta el punto que, cuando el texto no existe, como en el caso de las imágenes, o no es posible introducirlo en la bdd, los documentalistas deben inventarlo. Segundo, que la información documental es probabilística, y no determinista, y toda estrategia de gestión documental que ignore estos dos extremos corre el serio peligro de verse abocada al fracaso.

Principales novedades tecnológicas

En el transcurso del último año, las novedades en el terreno de la gestión documental (recuperación de información), desde el punto de vista de la Documentación son las siguientes:

  1. Aparición de una nueva estirpe de programas con filosofías mixtas, que combinan orientaciones típicamente ofimáticas con aproximaciones típicamente documentales. Ejemplos: Lotus Notes (Lotus), Keyfile (Suricata), FlashMedia (Centrisa), Invesdoc (Investrónica), Page Keeper (BSI Multimedia).

    Estos programas unen dos tradiciones. Nacen con vocación para solucionar problemas de gestión documental ofimática, es decir, gestión de informes y documentos similares creados en la propia empresa; no tanto para la gestión de colecciones de documentos reunidos en torno a un dominio del conocimiento, como es propio de los centros de documentación.

    Son capaces de gestionar los documentos desde que nacen. Los controlan mediante atributos estructurales, como han hecho siempre los sistemas ofimáticos, pero también por su contenido, como hacen los sistemas de recuperación de información. Están preparados para integrarse en sistemas de redes, aportan seguimiento de tareas y de expedientes; permiten compartir documentos e información entre departamentos, organizar grupos de trabajo, etc. Están pensados también para integrarse con toda naturalidad en arquitecturas de información globales, principalmente en las basadas en el modelo cliente/servidor.

    En entornos ofimáticos, esta clase de programas se conoce también por el nombre groupware (software para grupos de trabajo) o por sistemas docucéntricos.
  2. Incorporación de prestaciones completas de recuperación de información e incipientes prestaciones de hipertexto a los procesamientos de textos. Ejemplo: Word Perfect 6.0 (Word Perfect). Podemos prever una tendencia general a que los futuros procesadores de textos tengan una visión más global del documento y asuman funciones que, hasta ahora, requerían la adquisición de programas por separado. En estos momentos, programas como el mencionado incorporan auténticos motores de recuperación de información y la posibilidad de asociar registros estructurados a cada documento (incluyendo campos de palabras clave), así como generar tablas de contenido, índices analíticos, vínculos hipertextuales, etc. En consecuencia, el procesador de textos podrá actuar como un sistema polifuncional de gestión documental, que generará textos y documentos hipertextuales y proveerá las herramientas para recuperar la información.
  3. Emergencia de un nuevo paradigma de documento. Cada vez más los documentos se crean, se distribuyen y se consultan en modo electrónico, sin que lleguen a trasladarse nunca, o sólo eventualmente, al papel. Ésto ha generado una nueva serie de productos, que aún no acaban de arrancar en nuestro mercado, pero que seguramente no tardarán mucho en hacerlo, y que sirven para distribuir y leer documentos en modo electrónico, particularmente en forma de bdds documentales. El texto se integra en una run time (parte de un programa de sólo consulta) de un gestor de bdds. Ejemplos: Windows Personal Librarian (CSi), SmartText (Lotus), Guide (Sainfo), Knosys PC Make (Micronet), Floppymedia (Transputer Tecnología), Archivist (Glahn).
  4. Triunfo del modelo cliente/servidor en la informática de gestión en general y en la informática documental en particular.

    Es decir, tendencia a situar la potencia de tratamiento o cálculo al lado del usuario final, mediante redes de ordenadores donde los microordenadores juegan el papel principal, aunque los servidores de estas redes y algunos depósitos de información puedan estar situados en miniordenadores e incluso en mainframes. Esto significa la facilidad para "computar el mundo real", con todas sus consecuencias: documentos completos en vez de simples referencias; voz, imagen y texto con calidad tipográfica en lugar de caracteres ascii.

    Así pues, el escenario tradicional de mucha potencia central (remota) y poca potencia distribuida (local) está cambiando radicalmente, y ahora asistimos a un escenario, en transición, donde la potencia y la propia información están muy distribuidas. Consecuencias para la Documentación: (1) gestión centrada en el documento, en lugar de centrada en los datos; (2) gestión mucho más sofisticada de la información documental: multimedia, hipertextos, bdds de texto completo completo, etc.
  5. En cuanto a sistemas documentales puros, o clásicos, las novedades más importantes provienen de los siguientes aspectos:
    1. Interfaces de usuario más amigables. Tímidamente, los programas documentales, particularmente los basados en microordenadores, comienzan a mejorar sus interfaces de usuario, que han sido legendariamente malas. Esta mejora en la forma como los usuarios trabajan con el programa (y, a veces, en las prestaciones), suele coincidir con la aparición de versiones para IGUs (interfaces gráficas de usuario) como Windows, ya sea de versiones pre-existentes para MS-DOS o de versiones creadas ex novo para estas IGUs. Ejemplos: Clarity y Knosys (Micronet), cuyo paso al mundo Windows es inminente y que, de momento, presentan importantes innovaciones en sus recientes versiones para DOS. En cuanto a sistemas para Windows, destacan por sus cuidadas interfaces y/o por sus innovadoras prestaciones, programas como Personal Librarian (CSi); Invesdoc (Investrónica); HyperMap-Doc (Cognivision); Taurus y Texto-GED (Chemdata); Docu/Imagen (Bull).
    2. Mejoras en las opciones de recuperación de información. Los modelos más celebrados en este caso son Windows Personal Librarian (CSi) y Page Keeper (BSI Multimedia). Ambos programas implementan algoritmos capaces de ordenar los documentos recuperados por grado de relevancia, así como pueden sugerir términos de indización por co-ocurrencia de términos y/o buscar documentos similares a las propiedades de un documento dado como ejemplo.
    3. Capacidades para incorporar texto completo y (casi) cualquier morfología de la información: imagen estática, imagen animada, tipografía y voz. Ejemplos: Guide (Sainfo), SmartText (Lotus), Windows Personal Librarian (CSi), FlashMedia (Centrisa).

Fuentes de información para elaborar este informe:

Además de las propias empresas citadas, se ha obtenido información de las siguientes publicaciones:

  1. Revistas especializadas:
    • Information World Review
    • Information World en Español
    • Electronic Documents
    • Information Processing and Management
    • Journal of Information Science
    • Annual Review of Information Science and Technology
    • Archimag
    • Journal of the American Society for Information Science
    • Ítem: Revista de Biblioteconomia i Documentació.
    • Revista Española de Documentación Científica
  2. Revistas de informática:
    • Byte
    • PC Magazine
    • Binary
    • Datamation
    • Windows Sources
  3. Libros:
    • Blair, D.C. Language and representation in information retrieval. Amsterdam: Elsevier, 1990.
    • Hodges, M. E.; Sanett, R. M. Multimedia computing: Case estudies from MIT Project Athena. Reading: Addison Wesley, 1993.
    • Jackson, G.A. Introducción al diseño de bases de datos relacionales. Madrid: Anaya Multimedia, 1990.
    • Losee, R.M. The Science of Information: measurement and applications. San Diego: Academic Press, 1990.
    • Parsaye, K. et al. Intelligent Databases: Object‑Oriented, Deductive, Hypermedia Technologies. New York: John Wiley & Sons, 1989.
    • Pollit, A.S. Information storage and retrieval systems. Chichester: Ellis Horwood, 1989.
    • Salton, G. Automatic text processing: the transformation, analysis, and retrieval of information by computer. Reading, MA: Addison-Wesley, 1989.
    • Willitts, J. Database design and construction: an open course for students and information managers. London: Library Association, 1992.

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1994/febrero/sistemas_de_gestin_documental_situacin_problemas_actuales_y_principales_novedades_tecnolgicas.html