El profesional de la información


Septiembre 1998

BRS/Search versus indexadores de ficheros

Este sistema de recuperación de información en texto completo se ha consolidado, con el paso del tiempo, como una de las opciones más utilizadas para la gestión de amplias colecciones de información.

Es muy posible que entre las razones por las cuales esta solución ha tenido tanto éxito frente a los programas indexadores de ficheros (Folio, Fulcrum, PLS, Topic, etc.), se encuentre el tratamiento que se hace del índice. Una de las cuestiones más importantes relacionadas con la gestión documental es cómo guardar los documentos en sus ficheros originales, con las complicaciones que surgen cuando el documento cambia y los índices deben actualizarse.

A la hora de modificar un documento se necesita un mecanismo que notifique al sistema que mantiene el índice que el documento ha sido cambiado.

Si durante el proceso de notificar estas actualizaciones se produce algún tipo de error, se generará un índice incorrecto, que haría que el usuario recibiera documentos recuperados incompletos o falsos. Para corregir el índice de manera eficaz el sistema necesita conservar ambos documentos -el anterior y el modificado-, con el fin de poder borrar las referencias antiguas del índice y añadir las nuevas.

Este proceso es fácil de gestionar en un entorno limitado como un PC o en una maquina aislada. En realidad, el "mecanismo de notificación" incluye normalmente al usuario o persona que hizo el cambio. Sin embargo en un entorno distribuido esto no es práctico, ya que el proceso debe ser automático y no debe obstaculizar el trabajo del usuario.

Un sistema de base de datos que pueda almacenar gran cantidad de documentos -utilizando una estructura de almacenamiento rápida y eficaz- e índices, proporciona la mejor solución para este problema.

Archivo de documentos

Una de las ventajas más significativas de almacenar el documento en una base de datos es que el usuario puede borrarlo de su estructura privada de directorios. Una vez que el documento no necesita guardarse por más tiempo en el directorio, se puede enviar a la base de datos. Más tarde, si se necesita un nuevo, se puede recuperar utilizando técnicas de búsqueda basadas en contenidos o conceptos. Para realizar este proceso, no tendría que recordar cómo se identificó el fichero original.

Es precisamente éste el punto fuerte de BRS/Search. Al contrario que otros programas -simples indexadores de ficheros-, BRS trabaja con independencia de la máquina y del sistema operativo, facilitando el proceso de transportabilidad de un entorno a otro.

Niveles de seguridad y seguridad de los contenidos

Al guardar los documentos en la base de datos, el sgbd puede proporcionar características de seguridad no disponibles en los sistemas de ficheros de un host. De esta forma es posible contar con mayores niveles de precisión en la seguridad, así como seguridad basada en el contenido. Este sistema se aplica a tipos de campos o a ocurrencias de determinados campos, y puede incluir comprobaciones que contengan los permisos del usuario y el contenido del documento para presentar una "porción" vertical de los datos.

Si adicionalmente se archiva un universo de documentos, se puede realizar una restricción "horizontal" a los datos presentados. Esta característica permite limitar a qué documentos o partes de documento accederá el usuario. El índice puede indicar también la ocurrencia de términos no restringidos para un usuario determinado. Los indexadores de ficheros permiten proteger los datos únicamente en el ámbito de directorio y de fichero. Algunos de estos productos emulan datos organizados en campos dentro de los índices, y dado que mantener sincronizada la seguridad de los campos y la de los ficheros es muy difícil, no se implementa.

Apertura de un fichero

Un sistema que almacena los documentos en ficheros individuales necesitará abrir un fichero para visualizar cada documento. Este trabajo extra supone demasiado esfuerzo si el sistema necesita visualizar un solo documento. Pero cuando lo que se requiere es cotejar unos cuantos campos de cada documento para permitir al usuario ver de antemano una larga lista de documentos, o cuando el documento éste es extenso y está almacenado en varios archivos, el trabajo puede ser significativo y degradar el rendimiento del sistema.

Almacenar los documentos en una base de datos evita este trabajo extra, y proporciona la suficiente flexibilidad como para que los usuarios puedan "jugar" con la presentación de los datos. Esta tarea sería impensable de realizar en un indexador de ficheros.

Conservación del espacio total del disco

A menudo ocupan menos espacio los documentos en una base de datos que en el sistema de ficheros. La razón es que el espacio extra asociado con el nombre del fichero en el directorio, la información de encabezamiento del archivo, y el espacio sin utilizar en el último bloque del fichero se eliminan cuando se almacena el documento en la base de datos.

La estructura de almacenamiento de la base de datos necesita poco espacio extra para la identificación del documento, ya que compacta los de extensión variable y proporciona una compresión.

Muchos sistemas operativos tienen tamaños de ficheros mínimos de 1K o más, y no están optimizados para almacenar decenas o centenas de miles, y mucho menos, millones de pequeños ficheros.

Soporte para estructuras de almacenamiento complejas

BRS/Search permite utilizar una estructura de almacenamiento sofisticada, lo que facilita la gestión de documentos con objetos anidados, tales como gráficos e imágenes. Al mismo tiempo, es posible eludir partes de documentos que no sean relevantes para la operación que se está realizando. Por ejemplo, si se está visualizando en una pantalla que no soporta imágenes, el sistema podría evitar leer la imagen de la base de datos.

Acceso a puntos concretos en un documento

Cuando los documentos son muy largos, BRS/Search puede ir a una "referencia" u "ocurrencia" de forma mucho más rápida que si el documento se encontrase almacenado en una base de datos utilizando una estructura diseñada para acceso secuencial. Aunque el índice del sistema de ficheros pudiera contener el número relativo de registros en que un término aparece, el sistema necesitaría leer cada uno de los registros anteriores del fichero secuencial para localizar la referencia.

Nota enviada a IWE por Eduardo Llona. Baratz, Servicios de teledocumentación, S. A.

Fuencarral, 123, 3º. 28010 Madrid.

Tel.: +34-915 939 612; fax: 915 939 821

http://www.baratz.es

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1998/septiembre/brssearch_versus_indexadores_de_ficheros.html