El profesional de la información


Noviembre 1995

Taurus para Windows

Por Lluís Codina

El aumento de la capacidad de los microprocesadores ha convertido a éstos, casi de golpe, en máquinas capaces de gestionar objetos multimedia donde ayer sólo podían gestionar simple texto, al mismo tiempo que las nuevas interfases gráficas de usuario han introducido con toda naturalidad la convivencia de todas las morfologías de la información -texto, imagen y sonido- en una misma aplicación e, incluso, en un mismo documento.

Un típico registro de Taurus: la ficha descriptiva, a la izquierda, y uno de sus objetos asociados. En este caso, la imagen digitalizada del cartel de la película. El botón sobre el campo clave película indica un campo relacionado.

Por ello, tanto en el sector ofimático como en el sector de la gestión científica y técnica, se han hecho necesarios sistemas de gestión documental capaces de capturar, almacenar, recuperar y distribuir documentos multimedia, además de documentos textuales.

El programa Taurus para Windows es un sistema de gestión documental que puede integrar indistintamente documentos textuales y objetos multimedia en sus bases de datos, y que se caracteriza también por utilizar herramientas de tipo lingüístico para representar y recuperar la información.

La consulta booleana libre, una de las formas de consulta, permite abrir todos los índices de los campos y del tesauro, así como utilizar diversos operadores en un modo totalmente asistido.

Así, la estimulante propuesta de Taurus se basa en las siguientes características fundamentales:

  • utiliza un modelo de registro sin restricciones en cuanto a la cantidad de caracteres que admite cada campo, sin que ello comprometa sus prestaciones de indización;
  • posee un motor de recuperación de información capaz de indizar el texto completo de cada registro y que puede actuar en unión de tesauros, de tal manera que permite una recuperación por conceptos y no simplemente por comparación de cadenas de caracteres.

Gestión electrónica de documentos

Un registro de Taurus está compuesto por dos elementos básicos:

  • una ficha documental convencional, de tipo textual, con campos de extensión variable, etc.;
  • uno o más objetos asociados que pueden ser archivos de texto, de imágenes o de sonido.

El gestor de tesauros integrado en Taurus. En este ejemplo podemos ver uno de los descriptores dados de alta, <CINE>, y las relaciones que mantiene con otros términos.

Los objetos asociados son los documentos primarios, mientras que la ficha consiste en su descripción documental, lo cual permite un tratamiento documental tan amplio o tan restringido como desee el administrador de la base. Además, los registros aceptan vinculaciones tipo OLE (object linking and embedding) con otras aplicaciones, las cuales se representan en el registro mediante un icono. Por ello, un registro puede contener una asociación con otra aplicación, que a su vez puede estar asociada con un determinado documento.

Al poder asociar imágenes a los registros descriptivos, Taurus permite efectuar la denominada gestión electrónica de documentos, basada en la digitalización y el almacenamiento de la imagen de los documentos (textuales o icónicos) y en su asociación a un registro documental.

Para ello, Taurus incorpora controladores de compresión y descompresión de imágenes, bien por hardware o bien por software; controladores de escaners y gestión de bases de datos multivolumen.

El programa puede utilizar tarjetas gráficas especiales que realizan compresión y descompresión de archivos gráficos y que controlan también escaners y/o impresoras láser. De este modo, el propio programa gestiona la compresión de la información a la alta velocidad que permiten tales tarjetas, persiguiendo tanto una reducción de las importantes necesidades de almacenamiento típicas de la imagen como una descompresión/visualización de ésta en tiempo real.

Por otro lado, al controlar directamente el escáner, Taurus añade funciones adicionales a la simple asociación de imágenes a un registro, como hacen últimamente otras aplicaciones:

En primer lugar, los aspectos técnicos de la asociación del archivo gráfico a su registro descriptivo se realizan de modo transparente. El archivo gráfico en cuestión puede quedar, si así lo desea el usuario, totalmente integrado en la base de datos en lugar de en forma de un archivo independiente unido por un puntero entrado "a mano".

Una vista de una ficha textual de Taurus y cuatro de sus objetos asociados: un documento de texto, un archivo de sonido, una anotación escrita desde el propio Taurus y un archivo de imagen.

En segundo lugar, cada registro admite hasta 900 imágenes distintas asociadas, por lo que se pueden realizar asociaciones de registros/imágenes del tipo 1:n (1 registro, n imágenes), en lugar del simple 1:1 (1 registro, 1 imagen) que es el único tipo de asociación que soportan las otras aplicaciones. Esta última diferencia puede parecer inocente, pero convierte en un infierno la digitalización de fondos de información compuestos por documentos con más de 1 página, lo que por otro lado suele ser habitual.

En tercer lugar, el control directo del escáner para capturar y asociar la información, en lugar de entrar a mano el camino, a modo de puntero, del archivo gráfico, permite controlar aspectos clave del proceso de la digitalización de la imagen, tales como los grados de luminosidad (claro, oscuro, etc.); el tamaño del original a digitalizar (modo texto, imagen o semi-tono); la alimentación (manual o automática), la definición o resolución medida en puntos por pulgada (200, 300, etc.); el tipo de compresión (Ccitt grupos 3 y 4, Jpeg); la pre-visualización del resultado y el escaneado de zonas rectangulares parciales del documento original.

Tauruspermite asociar, también a través del protocolo OLE de Windows, todos los tipos de objetos que soporten las aplicaciones Windows que posea el usuario en su ordenador y que puedan actuar como servidoras de documentos y, por lo tanto, puede incorporar archivos de sonido, de imágenes estáticas y de vídeo.

Por importación de archivos (o por digitalización directa como ya hemos comentado), Taurus admite también archivos gráficos y de texto, incluyendo en este último caso archivos de texto obtenidos mediante vinculación con alguna aplicación OCR (reconocimiento óptico de caracteres).

Por otra parte, la vocación multimedia de Taurus obtiene también un buen reflejo en otras de sus utilidades, como, por ejemplo, la exportación o impresión separadas de cada uno de los objetos que forman parte de un dossier (un dossier es un registro textual más todos sus objetos multimedia asociados), así como la exportación de documentos gráficos vía fax.

Adicionalmente, las utilidades relacionadas con el tratamiento de los documentos una vez digitalizados permiten la realización de rotaciones, ampliaciones y reducciones del tamaño, y su exportación y conversión a otros formatos, tales como Tiff y PCX. Además, en la visualización de registros con n imágenes asociadas, puede verse una sola imagen en la ventana correspondiente o pueden verse diversas imágenes en modo mosaico.

La gestión multivolumen, por su parte, abre la puerta al uso de soportes removibles (típicamente discos ópticos) para crear bases de datos de gran volumen, lo cual es inevitable si se almacenan objetos multimedia.

Taurusconoce en qué disco se encuentra cada documento, ya que la gestión multivolumen implica un índice único en el disco duro con indicación de en qué volúmenes está repartida una base de datos. En este sentido, Taurus puede utilizar tanto el almacenamiento magnético como el óptico y, dentro de este último, los lectores y discos tipo worm, reescribibles y cd-rom, así como robots (juke-box) de lectura.

Indización y recuperación de información

En primer lugar, cabe señalar que Taurus proporciona herramientas suficientes para implementar políticas de indización complejas, tales como el uso de campos con valores predeterminados, diccionarios de palabras vacías, indización palabra a palabra, mediante separadores de descriptores, etc.

Sin embargo lo más profesional que tiene es la posibilidad de utilizar, si así lo desea el administrador de la base, uno o más tesauros asociados a uno o más campos de la misma. De esta manera el control de la indización intelectual es total y la recuperación conceptual se hace posible con el máximo rigor.

Declarar un campo con tesauro significa que en la carga de datos ese campo sólo admitirá los términos controlados mediante el tesauro, con o sin admisión de términos nuevos a usuarios autorizados. También significa que el usuario podrá utilizar el tesauro como filtro de sus preguntas, así como ampliar sus búsquedas a los términos asociados jerárquica y/o asociativamente (términos amplios, términos específicos y términos relacionados) con el descriptor elegido.

En todas esas operaciones es posible consultar el tesauro en pantalla y comprobar cuáles son los descriptores que contiene y qué términos tienen asociados. Los operadores autorizados por el administrador pueden dar altas y bajas en el tesauro y realizar labores de mantenimiento, como su impresión en papel.

El lenguaje de recuperación de información incluye los operadores de comparación básicos (igual que, mayor que, superior a, entre rangos), truncamientos (*) y máscaras (?), los tres operadores booleanos básicos (AND, OR, NOT) y un cuarto operador, el XOR, que no suele encontrarse en otras aplicaciones. La tabla de verdad de XOR reconoce como verdadero un documento que contenga uno u otro de dos términos, pero no ambos.

Taurusincorpora también el concepto de vistas en la gestión del usuario final, también proveniente del modelo relacional; es decir, el diseño de carátulas de consulta o de visualización diseñadas para los usuarios, que pueden contener versiones distintas de la base de datos.

De este modo una misma base de datos puede tener distintas vistas, no sólo para cada usuario o grupo de usuarios, sino para cada tarea característica (mantenimiento, consultas, actualizaciones, informes).

La gestión de las vistas la realiza el administrador, quien las asigna a grupos de usuarios. En tales vistas no sólo se detallan los campos que puede ver cada grupo, sino las operaciones que pueden efectuar, los operadores de búsqueda que pueden utilizar y el tipo de consultas que pueden ejecutar. Mediante vistas pueden desarrollarse también informes, con el excelente módulo de definición de informes de Taurus.

El diccionario de datos

El diccionario de datos es una herramienta conceptual que puede o no tener una implantación física en una base de datos. Se trata de una descripción del tipo de datos que incorpora cada uno de los campos de la base, lo cual incluye la indicación de restricciones o de propiedades de ese campo, que deben estar de acuerdo con su tipo de datos y/o con la función que debe cumplir el campo en el sistema de información.

El conjunto de especificaciones elementales de un diccionario de datos consiste en indicar su dominio, determinar si el tipo de datos es numérico o alfanumérico, si el campo puede o no quedar vacío, si admite uno o múltiples valores y si el valor de un campo puede o no aparecer en otro registro.

El diccionario de datos es muy importante en el diseño de una base de datos. Pero tanto o más lo es si resulta que el sistema de gestión de la base puede incorporarlo de modo efectivo, de manera que sea algo más que una herramienta de diseño conceptual y pasa a formar parte de la implantación física de la base de datos.

Mediante el diccionario de datos se garantiza la coherencia y la integridad de la información. Sin él, ninguna base de datos con volatilidad suficiente (altas, bajas y modificaciones) es capaz de evitar las pérdidas de información, las inconsistencias y las redundancias.

En este sentido, Taurus incorpora un excelente módulo de administración de la base que, a su vez, tiene un gestor de diccionario de datos sumamente completo, bastante más de lo que es habitual en sistemas documentales, ya que las tecnologías documentales, al concentrarse en los aspectos de recuperación de información, suelen descuidar mucho este capítulo.

El diccionario de datos de Taurus permite fijar todas las especificaciones fundamentales indicadas anteriormente, más alguna propia del mundo documental, como el tipo de indización, que puede ser palabra a palabra o por descriptores, así como una más exclusiva de Taurus, que es el establecimiento de relaciones, concepto que se explica en el siguiente apartado de este artículo.

La gestión relacional en Taurus

Taurus no incorpora un sistema relacional estándar, ni tampoco lo pretende, ya que ello supondría pérdida de funciones documentales; pero presenta en su lugar un modelo de relación que intenta aportar una parte de la funcionalidad propia del modelo estándar a la gestión documental.

En una base de datos relacional bien formada (por ejemplo, con tablas normalizadas hasta la tercera forma normal), los distintos atributos de las entidades se describen en tablas separadas, buscando que la redundancia innecesaria y las incoherencias queden eliminadas totalmente sin pérdida de información (v. IWE-33, abril de 1995, p. 10-11, e IWE-34, mayo de 1995, p. 9-12, "Metodología de creación de bases de datos documentales", así como IWE-29, noviembre de 1994, p. 18-19, "Bases de datos relacionales: qué son y qué aportan a la gestión de información").

Por ejemplo, si una empresa posee diversas sucursales, es posible representar en una tabla el nombre completo de la empresa, su NIF y su domicilio social, y en tablas separadas los datos de sus diversas oficinas, como domicilio, persona de contacto, etc.

Si la base está bien diseñada, el nombre completo, el NIF y el domicilio social no tienen que repetirse en cada una de las tablas de las sucursales, ya que son datos que no varían. Únicamente hay que entrar los datos variables, junto con un campo clave que contenga un código único de entidad. Gracias a esa estructura, si se modifica el domicilio social de la empresa, no hace falta actualizar los datos de las demás tablas, y si se desea saber el NIF o el domicilio de la sede social, a través de cada una de las tablas de las sucursales se puede acceder a tales datos de la entidad.

Esto no es posible en las bases de datos no relacionales, por lo menos no lo es sin pagar algún precio en redundancias, en inconsistencias o en pérdida de datos, así como en prestaciones y flexibilidad.

Por ello, los sistemas no relacionales, como suelen ser las bases de datos documentales, hace tiempo que buscan un mecanismo para obtener un rendimiento semejante al relacional sin necesidad de utilizar tablas normalizadas, pero no parece que haya cuajado ningún procedimiento estándar por el momento.

De hecho, cada programa intenta solucionar el problema a su manera. Por ejemplo, Notes, de Lotus (ahora un empresa de IBM) utiliza el concepto de herencia, de manera que los registros pueden heredar todos o algunos campos de un registro determinado. El programa Idealist, de Blackwell, utiliza el concepto de padres e hijos, de manera que un registro padre puede tener n registros hijos, etc.

Taurusutiliza el concepto de campo relacionado y, de todas esas fórmulas, la de Taurus parece ser la más "relacional". Utiliza el concepto de relaciones de grado 1:1 (uno a uno), 1:N (uno a muchos) y N:1 (muchos a uno) para expresar el número de campos que intervienen en cada extremo de la relación. Sin embargo, a diferencia del modelo estándar, el de Taurus no incluye la relación N:M (muchos a muchos), y es significativo o distinto que la relación sea de 1:N o de N:1.

La relación en sí tampoco se representa en una tabla separada, como en el modelo estándar, sino que queda implícita, y significa que un campo o más de una base de datos está(n) relacionado(s) con un campo o más de otra base de datos.

Al igual que el modelo relacional, Taurus impone algunas restricciones para permitir sus relaciones. Por ejemplo, sólo pueden establecerse entre bases de datos distintas si los campos relacionados comparten el mismo dominio (es decir, toman sus valores del mismo conjunto de elementos) y en ambas bases de datos debe tratarse de campos obligatorios.

Cuando hay campos relacionados así, al recuperar un registro de una de las bases de datos, pueden recuperarse automáticamente los registros de otras bases de datos relacionados con el primero, para lo cual, de modo transparente, el programa activa la base de datos necesaria y accede a los registros correspondientes.

De este modo, una base de datos Taurus puede tener un único registro para reseñar, por ejemplo, los datos biográficos de un director de cine, y n registros relacionados con el primero, tantos como films haya realizado el director, cada uno de los cuales incluye los datos técnicos y artísticos de la película sin necesidad de repetir los del director.

La declaración de una relación entre campos incluye mecanismos de seguridad que velan por la llamada integridad referencial, es decir, para que no pueda desaparecer por accidente la relación entre entidades relacionadas, con lo cual se produciría pérdida de información.

Así, si se intenta modificar el valor del campo de relación, por ejemplo, el apellido del director, para seguir con nuestro ejemplo, Taurus advierte que el campo tiene registros relacionados y que la relación puede perderse, advertencia que da también cuando se intenta borrar registros relacionados entre sí. Por otro lado, cuando se da de alta un registro que contiene un campo relacionado, Taurus ofrece la oportunidad de dar altas en la otra base de datos relacionada creando un registro que hereda automáticamente el valor del campo relacionado.

En resumen, cabe señalar que Taurus es uno de los más completos sistemas de gestión electrónica de documentos que pueden encontrarse en el mercado, tanto por la amplitud de los tipos de datos y de objetos multimedia que gestiona como por la excelencia de las herramientas lingüísticas que aporta para el control documental, así como por sus prestaciones "relacionales", su acertada utilización del concepto de vistas y sus herramientas de administración de la base.

Tauruspara Windows

Fabricante: DCI.

Distribuidor: Chemdata Ibérica. Alcalá 101. 28009 Madrid.

Tel.: +34-1-435 22 02; fax: 431 45 56

Lluís Codina. Universidad Pompeu Fabra

codina_lluis ARROBA fcsc.upf.es

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1995/noviembre/taurus_para_windows.html