Febrero 1994
Sistemas de gestión documental: situación, problemas actuales y principales novedades tecnológicas
Por Lluís Codina
Profesor de Información y Documentación en la Universidad Pompeu Fabra, de Barcelona, y colaborador habitual de IWE.
Aunque no han experimentado ningún cambio revolucionario, las tecnologías informáticas de gestión documental han evolucionado considerablemente y han dado lugar a interesantes novedades, tales como la ordenación de documentos por grado de relevancia o una clase de programas llamados groupware o docucéntricos, que hacen del documento el centro de trabajo en las empresas. Posiblemente, algunas de estas novedades harán cambiar la forma en que los documentalistas desarrollarán su trabajo en el futuro. Sin embargo, en la actualidad están favoreciendo que la confusión en torno a qué son y qué no son programas de gestión documental crezca en lugar de disminuir, y por eso es muy importante establecer con claridad de qué se está hablando cuando se trata de sistemas (o de software) de gestión documental.
Recuperación de información y bases de datos
El adjetivo "documental" se predicaba, hasta ahora, de los programas de bases de datos (bdds) para explotar un fondo documental compuesto por documentos científicos, técnicos y culturales.
Esto significa que estos programas proporcionan a los profesionales de la documentación los instrumentos necesarios para que los documentos puedan ser descritos y analizados de acuerdo con los métodos y técnicas propios de las Ciencias de la Documentación (o de la Ciencia de la Información, como diría un angloparlante), implementar políticas de indización, utilizar lenguajes documentales, controlar la indización, exportar o importar documentos en formatos normalizados, etc. Además, esta clase de programas posibilita la búsqueda para descubrir qué entidades satisfacen una necesidad de información; no para saber más sobre un entidad previamente conocida.
Por todo ello, difieren en aspectos fundamentales de los sistemas de gestión de bdds ofimáticas o de aplicación general, que se utilizan para gestionar documentos que en general no necesitan ser recuperados por su contenido, puesto que no tienen contenido en el sentido cognitivo del término; sino únicamente por aspectos tales como su fecha de creación, su emisor, su destinatario o su función administrativa factura, albarán, orden de pago, etc. en el circuito de gestión de la empresa. En este último tipo de bdds, se parte de una entidad conocida para saber más sobre ella, o para agruparla de una forma determinada; no tanto para descubrir qué entidades cumplen una condición. Además, en estas bdds, por un lado, la información es muy volátil: soportan una actividad constante de altas, bajas y actualizaciones y, por otro lado, esta información es siempre muy coyuntural y sólo interesa a los gestores de la empresa, mientras que la información científica y técnica es susceptible de interesar al conjunto de la humanidad.
Sin embargo, con la ampliación del tipo de datos que los sistemas ofimáticos (que suelen identificarse con sistemas relacionales) pueden ahora tratar, han comenzado a aparecer programas que pueden gestionar no sólo datos cifras de ventas, o listados de operaciones bancarias, etc., sino el documento en su integridad: correspondencia, informes, contratos, facturas, etc. Esto pueden realizarlo de diversas formas: bien por la vía de la imagen facsímil del documento, asociada a su descripción en una tabla; bien por la vía de los llamados campos blob (binary large objects), que actúan como punteros hacia objetos digitalizados (documentos, imágenes, sonidos, etc.); bien por la vía de los documentos compuestos mediante la incrustación y vinculación de objetos (por ejemplo, mediante la técnica OLE object linking and embedding, desarrollada por Microsoft).
Como resultado de todo lo anterior, la industria predica ahora quizá con toda propiedad el adjetivo documental indistintamente a los dos tipos de sistemas, pese a que representan soluciones tecnológicas y filosóficas totalmente diferentes, y pese a que emplear una de ellas cuando se requiere la otra puede causar graves problemas en la implementación de sistemas de información.
Así pues, la industria informática, por motivos de marketing o por mal conocimiento del sector, ofrece como documentales soluciones que sirven perfectamente para gestionar documentos administrativos, pero no para gestionar documentación científica, técnica o cultural, es decir, aquella que forma el núcleo típico de la actividad documental.
Bdds versus recuperación de información
Ante esta situación, los documentalistas tenemos dos opciones: una, resignarnos a convivir con otro término ambiguo (¡uno más!), lo cual supondrá que, a partir de ahora, decir que un programa es documental es no decir nada, puesto que puede significar cualquier cosa.
Dos: utilizar un término distinto para cada clase de programas. Es la solución que hace años utiliza el mundo anglosajón y parece que no le va mal, puesto que esta distinción ha llegado a calar, por lo menos, entre los técnicos informáticos, cosa que ya es mucho comparada con la situación en nuestro país. Así, para los anglosajones, existe una diferencia entre sistemas de gestión de bdds ( sgbd ) por un lado y sistemas de recuperación de información ( SRI ), sistemas basados en texto o sistemas de recuperación textuales, por otro. Tal vez ha llegado el momento de que en nuestro país los documentalistas empecemos a ensayar esta solución, de manera que el término sgbd , con el adjetivo añadido de documental o no, se reservaría para sistemas de gestión de documentación administrativa; y el término SRI, se aplicaría a los sistemas documentales en el sentido de las Ciencias de la Documentación, es decir a sistemas capaces de gestionar documentos científicos, técnicos o culturales, y de recuperarlos según su contenido.
Estructura de un sistema de recuperación de información
La estructura de un SRI apenas ha experimentado variaciones en los últimos diez años, y la principal novedad histórica en este terreno ha radicado en su implantación en el mundo de los microordenadores, que culminará, sin duda, al final de la década de los noventa.
En cualquier caso, todos los programas de SRI
suelen disponer de un motor de recuperación con una
estructura tripartita que consiste, por lo menos, en:
El fichero invertido, como es sabido, es la lista de términos (simples o compuestos) creada automáticamente por el motor de recuperación del programa documental. Esta lista está organizada en sí misma como una base de datos, cuyos registros tienen sólo dos campos: uno con el término y otro que indica en qué registros de la bdd y en qué posiciones aparece ese término. Por ejemplo, este registro del fichero invertido: agua:ti,4;ab,3,14,27:020455 indica que el término "agua" se encuentra en la posición 4ª del campo título y en las posiciones 3ª, 14ª y 27ª, del campo resumen, del registro 20.455 de una base de datos.
Esta técnica se basa en la hipótesis de que el tema de un documento puede representarse por las palabras que aparecen en él, aunque para mejorar el rendimiento, los motores de recuperación documentales pueden trabajar con una lista de palabras vacías, con diccionarios de sinónimos o, mejor aún, con un thesaurus.
El lenguaje de recuperación suele basarse en el álgebra de Boole, complementada, por lo menos, con operadores de proximidad. Últimamente, algunos programas han añadido funciones que permiten calcular el grado de relevancia de un documento para satisfacer una consulta. En otros se calcula la ocurrencia de términos, permitiendo recuperar documentos similares tomando como modelo uno de ellos, o una porción de texto. Para éstos y otros cálculos, se suele utilizar la llamada función inversa del documento, que relaciona la frecuencia absoluta del término en cada documento con la frecuencia de aparición del término en el conjunto de la bdd. En general, la gestión documental está marcada por un doble factor que los buenos programas de RI deben contemplar: primero, que el texto es uno de los medios más poderosos para representar y acceder a la información, hasta el punto que, cuando el texto no existe, como en el caso de las imágenes, o no es posible introducirlo en la bdd, los documentalistas deben inventarlo. Segundo, que la información documental es probabilística, y no determinista, y toda estrategia de gestión documental que ignore estos dos extremos corre el serio peligro de verse abocada al fracaso.
Principales novedades tecnológicas
En el transcurso del último año, las novedades en
el terreno de la gestión documental (recuperación de
información), desde el punto de vista de la
Documentación son las siguientes:
Fuentes de información para elaborar este informe:
Además de las propias empresas citadas, se ha obtenido
información de las siguientes publicaciones:
Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1994/febrero/sistemas_de_gestin_documental_situacin_problemas_actuales_y_principales_novedades_tecnolgicas.html