Julio 1999
Tesauros, tesauros automaticos, tesauros automaticos online
Por Antonio de la Rosa
Resumen: Se intenta analizar el concepto de tesauro como instrumento clasificatorio: en primer lugar, comparándolo con el modelo cognitivo de estructura y gestión de información; luego evaluando las transformaciones que ha sufrido el concepto de tesauro, sus medios de implementación y sus objetivos básicos; y finalmente abordando el problema de su adaptación o inadaptación a uno de los mayores entornos de información que existen en la actualidad: el www.
Palabras clave: Tesauros, Modelo cognitivo de gestión de información, Clasificación, Indización, ISO-2788, Sistemas de recuperación de información, Objetos digitales, Jerarquía, Interfaces, Tesauros automáticos.
Title: Thesauri, automatic thesauri and automated online thesauri
Abstract: This article analyzes the concept of the thesaurus as a classificatory tool. Firstly, it is compared with the cognitive model of structuring and managing information. Then, the transformations that the concept has undergone are evaluated, together with its implementation and its basic aims. Finally the article addresses its adaptation (or its inadaptation) within one of the major information environments today: the World Wide Web.
Keywords: Thesauri, Cognitive model of information management, Classification, Indexing, ISO-2788, Information retrieval systems, Digital objects, Hierarchy, Interfaces, Automatic thesauri.
Aquí se presenta una serie de definiciones del Diccionario de la Real Academia de la Lengua Española. Hasta cierto punto existe una relación semántica entre estos vocablos, ya que unos definen el significado de otros. Se puede ver también una especie de jerarquía que marca sus relaciones y que se ha intentado reflejar en la indentación. Estos principios, entre otros, sirven de base a la semántica estructural para establecer en diversos idiomas los llamados lexicones de valencias verbales, con unas características por las que fácilmente se les podría relacionar con una herramienta más conocida entre los profesionales de la información: los tesauros.
Volviendo a las definiciones, clasificar es “ordenar por clases”, y a su vez clase, siempre según el Drae, es el “orden en que, con arreglo a determinadas condiciones o calidades, se consideran comprendidas diferentes personas o cosas”.
Para no abusar de la referencia a las clasificaciones más próximas a nosotros: CDU, Dewey, Colon, etc., citar la clasificación sistemática de las especies vegetales que Carl von Linneo estableció en el siglo XVIII. Este botánico sueco elaboró una nomenclatura y un esquema clasificatorio basados en criterios morfológicos que han tenido validez científica hasta la actualidad.
Sin embargo, recientemente un equipo científico internacional dirigido por el británico Mark Chase ha reescrito las relaciones de parentesco entre las plantas utilizando como criterio el análisis de su ADN.
¿Qué pueden tener en común una clasificación basada en la forma de los vegetales y otra basada en su código genético? En primer lugar, el hecho de que las clases se establezcan a causa de las características comunes que comparten sus componentes. En segundo, el hecho de que las relaciones entre categorías reproduzcan una serie de principios básicos.
Procesos cognitivos aplicados a la gestión de información
¿Cuáles son estos procedimientos? El psicólogo Jerome Bruner (1979) contribuyó, en la década de los 60, a su esclarecimiento al llegar a la conclusión de que el conocimiento depende directamente de la forma en que se estructura y conceptualiza la información. Sobre esta base, propuso un modelo cognitivo del aprendizaje.
Según este autor, los estímulos se perciben e interpretan activamente de forma organizada, usando expectativas adquiridas y tomando como base las experiencias anteriores parecidas al estímulo actual. En otras palabras: activando una clase.
Esta teoría asume la idea de que cada persona interpreta los sucesos externos según van ocurriendo y los incorpora a un esquema único de clasificación que, además de ser capaz de representar una cantidad ingente de información, puede interactuar con ella filtrándola, borrándola, reclasificándola, integrándola, etc.
El estímulo es percibido y posteriormente es interpretado como información en forma de imágenes, conceptos u otras unidades-objeto representativas. Posteriormente son clasificadas teniendo en cuenta patrones que obedecen a similitudes entre ellas, o entre ellas y ciertos estereotipos. En resumen, lo que permite que podamos aprender es el hecho de disponer de una clasificación global del conocimiento y de una forma flexible y activa de gestionarla.
Aplicación de estos procesos cognitivos a la lectura
Centrémonos en la gestión de este sistema en un contexto concreto, como por ejemplo la lectura. La semiótica analiza la comprensión de un texto desde cuatro enfoques: léxico, sintáctico, semántico y pragmático.
En el nivel léxico el lector determina la definición de cada palabra que encuentra. En el sintáctico se especifica el sujeto, acción y objeto de las frases. Su significado es definido en el nivel semántico. Por último, en el pragmático, se integran todos esos datos en la mencionada clasificación global del conocimiento que la persona mantiene de sí mismo y del mundo (Geckeler, 1983).
Lo que el lector hace es construir una representación mental del significado del texto en forma de proposiciones. Cuando lee, establece una coherencia local en la memoria a corto plazo y realiza inferencias a pequeña escala a partir de unas pocas, pequeñas unidades de información (relaciones entre palabras, frases, etc.). Después, un sistema de control de la lectura recupera el conocimiento que tiene del mundo real en la memoria a largo plazo (la mencionada estructura) para filtrar la información que ha obtenido y que sigue acumulada en la memoria a corto plazo.
Las proposiciones resultantes de todo este proceso se combinan en estructuras mayores, también conocidas como “coherencia global”, y finalmente pasan a integrar la clasificación del conocimiento del lector.
Para acceder a las proposiciones o conceptos que integran esta clasificación, el sistema de control de la lectura utiliza la llamada ”activación dispersa”. En la memoria semántica cada concepto está conectado con un número variable de otros constituyendo lo que podría entenderse como una clase. Al activar uno de ellos se activan los adyacentes, que a su vez activan a otros, y así sucesivamente. De esta forma, la activación se expande a través de la estructura de la memoria, determinando qué debe ser aprovechado y qué desechado de la información extraída mediante la lectura.
La idea de que el “núcleo duro” del conocimiento se basa en un sistema clasificatorio muy activo, que gestiona objetos informativos fuertemente interrelacionados, no sólo se fundamenta con solidez en buena parte del producto de los veinte últimos años de investigación cognitiva, sino que, ciertamente, marca una línea que debe ser también tenida en cuenta por los investigadores en ciencias de la información.
Estructura, clasificación y tesauro
En el campo de las ciencias de la información, junto con las clasificaciones universales del conocimiento como las mencionadas CDU, Dewey, Colon, etc., se encuentra un instrumento clasificatorio de carácter más restringido: el tesauro. Puede considerársele como una herramienta de clasificación puesto que actúa como posible estructura organizativa de una materia al sistematizar en clases el conocimiento que la conforma (expresado en un lenguaje documental) y mostrar ciertas relaciones entre esas clases.
La Federación Internacional de Documentación ofrece también dos definiciones de tesauro, la de Brugghen (1972) y la de Mikhailov (1971).
Para el primero, el tesauro sería “una lista alfabética de términos (descriptores) relacionados con una determinada disciplina con reenvíos a términos asociados”. Mientras que para el segundo la definición es más compleja, e incluye el concepto de recuperación de información: “un diccionario de reenvíos destinado a ayudar al usuario a establecer sus necesidades de información en un lenguaje de descriptores, proporcionar una indización fina y detallada de los documentos y solicitar información por esos términos”.
Entonces ¿cuál ha sido tradicionalmente el concepto de tesauro?, ¿se corresponden las definiciones anteriores con la idea de un instrumento flexible, activo y compatible con nuestro modelo de conocimiento?, ¿puede la creciente importancia del www, y de los estándares asociados a él, modificar ese concepto provocando que se adapte mejor a nuestras características cognitivas y sea al mismo tiempo capaz de alcanzar sus objetivos tradicionales y satisfacer nuevas demandas?
Tesauro integrado en sistemas de recuperación de información
Si se analiza la definición de Mikhailov se puede apreciar que su alcance es mayor, al considerar al tesauro como parte de un sistema de recuperación de información. La pregunta es pues: ¿qué se requiere de esta herramienta documental en este tipo de sistemas?
Es necesario retomar por un momento la introducción para recalcar la imposibilidad práctica de separar, en el sistema cognitivo humano, la mencionada clasificación global de conocimiento de su “módulo de gestión”, en el cual se encontraría comprendido, por ejemplo, el subsistema empleado para recuperar información. En los sistemas artificiales, lamentablemente, esta relación no suele ser tan estrecha.
«Sistemas como el Smart de Salton llevan 30 años sin tener competidores serios»
La función de un sistema de recuperación de información artificial es encontrar documentos relevantes a la necesidad informativa del usuario, que realiza la petición mediante una consulta.
Es muy común que el resultado incluya muchos documentos no relevantes, lo que obliga al usuario a seleccionar la información que realmente necesita. ¿Cuáles son las causas de esta situación? Por una parte, la consulta a texto completo nunca puede ofrecer un cien por cien de precisión desde el momento en que diferentes autores han elegido diversos términos para representar el mismo concepto (polisemia), diferentes formas gramaticales, etc.
Por otra, hacer que sean profesionales cualificados los que elijan los términos de indización no parece suficiente. Existen estudios que han demostrado que la indización y recuperación de un documento específico difiere en gran medida entre los propios profesionales y sobre todo entre éstos y los usuarios —se debería, quizá, confrontar la lista de encabezamientos de materia de la Biblioteca Nacional con el número de consultas efectuadas sobre los términos que contempla—.
¿Cuál podría ser la conclusión?: la información sobre la que se lleva a cabo la búsqueda no está suficiente o adecuadamente estructurada. Sin embargo, la recuperación de información exige que ésta se encuentre debidamente organizada.
Para dotar a la información de una estructura podemos organizar los datos en clusters y disponerlos jerárquicamente, es decir, crear un tesauro automático u otro instrumento terminológico similar.
Si el sistema de recuperación se destina a un dominio restringido, el tesauro se convertirá en una solución muy adecuada para proporcionar al usuario alternativas semánticas a las palabras clave que utiliza a priori en su consulta. (Lancaster, 1986).
Pero en el campo de la recuperación de información, sobre todo en el www1, las colecciones de datos son tan increíblemente gigantescas que cualquier método distinto a un estudio superficial del conjunto fallaría. Sin embargo, este análisis global es incapaz, por razones obvias, de implementar un método sensible al contexto para reducir el número de resultados devueltos por el sistema. De este modo, la recuperación siempre se halla ligada al reconocimiento estadístico de patrones.
Concepto actual de tesauro vs. concepto tradicional
Los tesauros han acabado por integrarse en los sistemas de recuperación de información y, al igual que ellos, han sido automatizados.
¿Qué puede considerarse hoy día como un tesauro? Tradicionalmente se concebía como un lenguaje de indización desarrollado por instituciones individuales para cubrir sus necesidades específicas. A este razonamiento se debe que sus funciones fundamentales hayan sido las mismas durante treinta años: optimizar la indización y la recuperación en un ámbito predefinido para unos pocos usuarios de perfil concreto.
Se ha producido en los últimos años una serie de factores que han obligado a cambiar esta concepción tradicional. Entre ellos el aumento de la cooperación internacional a todos los niveles y, por lo tanto, del intercambio de información, el crecimiento ingente de las redes de comunicación de datos, especialmente de internet, y sobre todo el web. Estos factores, entre otros, han afectado a la idea de tesauro de la siguiente forma:
Características estructurales básicas de un tesauro
Una vez cubiertos estos aspectos se puede decir que se está hablando de un tesauro automático. Pero para evaluar su calidad, se debe analizar la implementación que hacen de las características estructurales básicas estas herramientas documentales, es decir, de los términos y las relaciones2.
El término y sus atributos: cualquier tesauro automático debe ayudar al usuario a crear y gestionar la terminología adecuada a sus propósitos. En este aspecto hay dos factores que determinan el grado de flexibilidad de este instrumento: la longitud y el número de campos.
Los requisitos básicos para cualquier software de automatización son, además del campo para el término, uno destinado a notas de alcance que definan su sentido y otro dedicado a anotaciones para facilitar la estructuración del vocabulario y su presentación sistemática.
Algunos tesauros automáticos restringen la longitud del campo término, lo que puede resultar problemático por dos razones:
Por lo tanto, idealmente, el sistema debería preveer una longitud de campos definible por el usuario. Una opción sería el uso de secciones Pcdata como en el entorno sgml-xml.
Además de estos requisitos básicos existe una serie de características cuya implementación depende del tamaño, el tipo de presentación previsto y los lenguajes que se van a usar. Con relación a esto los campos a incluir serían los siguientes:
Relaciones: atendiendo al tipo de relaciones, las necesidades de los usuarios pueden no ser compatibles con lo que recomiendan las normas —representación de tres tipos básicos: sinonimia, jerarquía y asociación—. Para hacer frente a esta cuestión, el tesauro automático, o el formato para realizarlo, deberían permitir al usuario la libre elección del tipo de relaciones que quiera establecer entre los términos.
En la construcción de tesauros multilingües o compatibles también debería dar facilidades para que el usuario definiera relaciones especiales de equivalencia entre diferentes lenguajes ya sean naturales o de indización.
En muchos casos, especialmente cuando se compilan o presentan vocabularios con muchos términos, puede ser útil diferenciar los tipos de relaciones que presenta, por ejemplo, dentro de las jerárquicas pueden darse genéricas, partitivas, etc.
En cuanto al número vínculos con que puede contar cada término, en principio no debería existir restricciones o, al menos, mientras su número no afecte a la consistencia del tesauro. Esto puede aplicarse especialmente a la relación entre los términos y sus genéricos pues hay que tener presente que la polijerarquía es un rasgo característico de algunos tesauros.
«El tesauro automático debería permitir al usuario la libre elección del tipo de relaciones que quiera establecer entre los términos»
Las ventajas que presenta xml se basan en su carácter de especificación independiente de cualquier sistema, por un lado, y de lenguaje de marcas por otro. Sus implicaciones en cuanto a intercambio vía web de datos terminológicos en particular, e información muy estructurada en general, son claras e importantes, sin olvidar la estructuración y la gestión de bases de datos offline —a través de la especificación Xsql (eXtensible structured query language)—.
Otras rutinas de trabajo de un tesauro automático
Además de estos aspectos estructurales existen algunas rutinas de trabajo típicas de un tesauro automático como la captura de datos, la modificación o eliminación de términos y sus relaciones, o el control de la consistencia del vocabulario y sus relaciones.
Alimentación del tesauro
Debería hacerse tanto manualmente como mediante la captura y/o importación de datos del exterior. Esto último tiene una importancia creciente, ya que en su construcción se implica cada vez más la integración de partes de tesauros preexistentes e incluso la participación de otros completos —búsqueda de un contexto cada vez más amplio y por lo tanto de un mayor valor añadido de la información—.
Actualmente, no existe un formato de intercambio de tesauros aceptado en general. Por lo que la posibilidad de integrarlos en el sistema depende de la capacidad de éste para crear un formato adecuado al que poder traducir esos datos sin que pierdan “inteligencia”.
Control de consistencia
El software para tesauros automáticos debe facilitar el examen de la consistencia de sus relaciones y términos. Los defectos más importantes que deben prevenirse son:
Este control debe aplicarse, por supuesto, cuando ya se han introducido los términos y se han establecido las relaciones, pero también cada vez que son modificados o eliminados.
En este sentido, la estructura de información que puede lograrse con xml facilita el diseño de todo tipo de aplicaciones relativamente sencillas (analizadores sintácticos, diversos parsers, editores, etc.) que pueden gestionar fácilmente estos y otros tipos de rutinas.
Presentación del tesauro
Sería necesario poder presentar el vocabulario desde varias perspectivas, de diferentes formas y con un tipo de composición definible por el usuario. La presentación no sólo es necesaria para su orientación, sino que también lo es para el propio mantenimiento del tesauro: comprobar que los nuevos términos se hayan introducido correctamente, que todas las relaciones necesarias se hayan establecido, que el borrado de términos o relaciones no haya afectado a la consistencia.
Es importante señalar la necesidad de que un tesauro automático pueda presentar su vocabulario bajo diferentes puntos de vista, dependiendo sobre todo del grado de diferenciación que pueda alcanzar la descripción del término. Debería ser posible presentarlo de acuerdo con ciertos aspectos relevantes —fuente, notas, faceta, idioma, tipo de relación— o combinaciones de esos criterios. También es conveniente tener en cuenta la posibilidad de selección o anulación de palabras previamente marcadas para fines específicos —borrado, modificación, cambio de relación, etc.—.
Sería necesario que las formas de presentación de la información en pantalla, destinadas a orientar a los usuarios, incluyeran una estructuración alfabética —con o sin relaciones y atributos de los términos— y otra sistemática —con los indicadores necesarios para señalar el lugar del término en el sistema clasificatorio, su nivel jerárquico y su inclusión en nodos superiores que respondan a una clasificación facetada alternativa o “classaurus”—.
Sería oportuno que en grandes vocabularios con muchos términos compuestos, existiera una presentación Kwic y algún otro tipo exclusivamente jerárquico para comprobar la consistencia de estas relaciones. Quedan como opción cada vez más utilizada y con una importante proyección de futuro, las presentaciones gráficas de todo tipo.
En lo que concierne a la forma de navegación interactiva por la red semántica del tesauro, debe ser tan sencilla como sea posible. Lo ideal sería que se aplicaran a las listas de términos determinadas funciones de edición que facilitaran las rutinas de construcción, modificación y borrado.
Cuestiones más específicas sobre la presentación tienen que ver con la mayor o menor libertad del usuario a la hora de editar el tesauro, lo que debería ser posible mediante cualquier editor de textos. A este problema responden la flexibilidad y compatibilidad de la especificación xml y su más que probable futura implantación en algunos editores como Word de Microsoft.
Otros detalles importantes a la hora de presentar la información serían:
«Quizá sea el momento para el uso de un nuevo tipo de interfaz que proporcione acceso y capacidad de gestión a un tesauro automático que, a su vez, estuviera conectado con fuentes primarias»
La importancia de estas características añadidas se basa en que facilitan la presentación para distintas aplicaciones, como comparar la estructura de otros tesauros antes de integrarlos, a la vez que permiten su mantenimiento con multitud de relaciones específicas —por ejemplo las usadas para desarrollar bases de conocimiento—.
En este sentido, xml soporta una estructura de datos tan compleja como sea necesario. Sin embargo, la simplicidad de la especificación hace posible el desarrollo de todo tipo de aplicaciones para gestionar cada una de las tareas mencionadas anteriormente. Además, permite la compatibilidad de los tesauros definidos con este formato o, en todo caso, la integridad de sus datos a la hora de poder convertirlos a otro.
Por otra parte la nueva especificación que desarrolla actualmente el W3 Consortium, Xsql, permitirá en breve plazo no sólo formular consultas tan específicas como sea necesario para lanzarlas contra bases de datos xml (que es como podría concebirse un tesauro), sino que también será posible indicar en gran medida el tipo de presentación deseado.
Como último punto, cabe mencionar la cuestión de la transferencia de datos a otros sistemas. Este problema exige claramente un formato de intercambio que cualquier software de tesauros debería ser capaz de generar y de reconocer. Ésta es precisamente la definición de xml: formato de intercambio de datos estructurados vía internet.
La transferencia de datos de un tesauro a un editor/procesador de texto o de una lista de palabras a un software para tesauros no es, generalmente, un inconveniente, dado que cualquiera puede generar y reconocer formatos normalizados de intercambio como el ascii. Lo difícil es intercambiar datos estructurados de un tesauro a un sistema de recuperación de información o al módulo de mantenimiento de otro, ya que no hay un formato de intercambio aceptado, y las normas usadas varían considerablemente unas de otras.
Como ya se ha dicho, estos programas deberían poder generar y reconocer algunos de los formatos necesarios para este tipo de transferencias. Generalmente suele solucionarse con programas de conversión “ad hoc” desarrollados en el momento en el que aparece el problema. Sin embargo, aquí juega un papel decisivo la importancia del web como medio de intercambio de datos —así como de xml como especificación www en auge—, que si bien no unifica, sí que restringe los formatos a usar.
En opinión del autor, no muchas organizaciones pueden permitirse despreciar las posibilidades que internet ofrece y, por lo tanto, deberán introducir los cambios pertinentes en sus sistemas para aprovechar al máximo estas posibilidades. Si puede extraerse alguna conclusión de esa idea, es que estamos asistiendo a una unificación de criterios, aunque ésta sea debida a la necesidad.
Funciones de indización y recuperación de los tesauros integrados
La orientación hacia el término más adecuado para la representación de un concepto dado es una de las principales funciones del tesauro, y ese proceso se facilita cuando:
La función de control de la alimentación debe realizarse también mediante software. Esto significa que el programa debe comprobar si un término usado para la indización de un documento aparece y si es necesario rechazarlo —a menos que el usuario haya dispuesto las cosas de otra forma—. También, debería permitir seleccionar descriptores directamente del tesauro. Por supuesto, la actualización en este aspecto es vital, en cuanto a términos contenidos pero no admitidos para la representación de ciertos conceptos, consistencia del vocabulario y de las relaciones, etc.
La renovación del vocabulario puede hacerse de una forma más racional cuando es posible verificar la frecuencia de uso de los términos del tesauro en los procesos de indización y de recuperación. A esto puede ayudar la estadística: si se sabe qué términos se utilizan y con qué frecuencia, se pueden extraer conclusiones acerca de la especificidad y cobertura del vocabulario.
El sistema debería admitir cambios globales, por ejemplo, siempre que un descriptor que ha sido usado en indización (y recuperación) se reemplaza con otro más adecuado para representar el concepto subyacente —ya sea un antiguo no descriptor, un término completamente nuevo o un término de cobertura más amplia—, las antiguas entradas en el índice deberían actualizarse automáticamente.
Una ventaja específica de los tesauros online en recuperación de información es su capacidad para facilitar la formulación de una estrategia de consulta. La búsqueda genérica automática —la búsqueda de todos los documentos indexados con términos pertenecientes a una jerarquía específica— es una función común a muchos sistemas de recuperación y puede considerarse un requisito básico de cualquier software para tesauros (Slype, 1991).
Compendio de características que debe presentar un tesauro automático
Existen algunas características relevantes que cualquier tesauro (y se incluyen en este concepto los automáticos y los tesauros www) debe poseer para serlo, mientras que hay otras que dependen de las necesidades específicas de sus usuarios y de la finalidad para la que fueron construidos.
Las características básicas son las que determinan la estructura y complejidad del vocabulario, las relacionadas con el control de consistencia y su presentación. Esto significa que:
Todas las funciones de un tesauro integrado relacionadas con el control y la orientación, deberían estar contempladas también en el módulo de recuperación del sistema para garantizar la consistencia en todo el proceso documental. Podrían considerarse también funciones básicas la elaboración asistida de consultas y la actualización periódica.
Si analizamos los tesauros automáticos existentes, de forma muy superficial, vemos que la mayoría de los programas satisfacen los requisitos básicos, pero en otros algunas de estas exigencias no se cumplen:
Considerando todo esto, se puede afirmar que los tesauros automáticos han sido desarrollados para cubrir objetivos a pequeña escala y sin tener en cuenta las posibilidades de integración e intercambio de datos que ofrece actualmente el www.
La construcción de esta herramienta documental todavía implica, por encima de cualquier otra consideración, la creación de un lenguaje de indización diseñado para responder a unas necesidades muy específicas: el tamaño real o potencial de la colección a tratar, las demandas de los usuarios, el tipo de documentos, la materia, etc. Las características del tesauro como la cantidad de términos recogidos, las relaciones definidas y la presentación del vocabulario son interdependientes pero también determinadas por las condiciones específicas del entorno.
Es precisamente este contexto el que ha cambiado radicalmente el desarrollo de la tecnología internet y del nuevo estándar para intercambio de información estructurada xml. Si se considera que:
Se llega a la conclusión de que se necesita un nuevo tipo de tesauro, con nuevas posibilidades y basado en un estándar que facilite el intercambio vía internet. Un buen tesauro automático debe, para responder a estas necesidades, dejar al usuario la máxima libertad posible a la hora de establecer el vocabulario, definir las relaciones, diseñar la presentación, etc.
Además, cada vez en mayor medida, deberán adaptarse a las nuevas tendencias de compatibilidad, facilidad en el diseño de aplicaciones, sistemas hipertexto, integración de datos de diferentes sistemas y de diferentes tipos, presentaciones gráficas, orientación a objetos, etc.
Documento como base de datos. Estructuras arbóreas. Jerarquía. Objetos
Un documento podría ser tratado como una base de datos con su correspondiente estructura interna. Esa organización podría verse integrada en una ordenación arbórea mayor que dispusiera, en un mismo esquema sin confusión, la palabra, línea, párrafo, capítulo, documento, subdirectorio, directorio y máquina, así como imágenes, ejecutables, etc.
La única forma de llegar a semejante esquema es mediante un formato que permita el diseño de estructuras arbóreas y el tratamiento de los nodos como objetos. Este formato es xml junto a las especificaciones que se están desarrollando sobre él como Smil (Synchronized multimedia integration language) para multimedia, SOX (Schema for object-oriented xml) para objetos o Xsql como lenguaje de interrogación.
Para gestionar un gran número de archivos eficazmente Unix estableció su famosa jerarquía: directorios, subdirectorios, archivos..., en la que generalmente los archivos con temática similar se agrupan juntos en directorios que a su vez se agrupan con otros relacionados, etc.
Si se dibujara un esquema vertical de esta estructura jerárquica sería algo muy parecido a una especie de árbol. Del mismo modo, si se hiciera un esquema vertical de la ordenación interna de un documento sgml o xml se obtendría otro. La única diferencia con el primero sería que los nodos son capítulos, párrafos... en lugar de archivos, directorios, etc. ¿Es posible integrar estas dos jerarquías en un sólo esquema? Con xml es posible, lo que constituye un avance a efectos de gestión de la información.
Interfaces para tesauros
La mayoría de los sistemas de recuperación de información y los opacs relacionados con ellos han mantenido básicamente el mismo diseño desde 1968: crear la base de datos de registros bibliográficos, extraer términos de indización y quizás resúmenes de los documentos, invertir algunos de esos descriptores para crear un índice y proporcionarle un acceso mediante palabras clave. Todos esos términos suelen aparecer exactamente igual en el índice que en el documento del cual se extrajeron. Esto significa que no hay un proceso de edición para controlar la sinonimia o las variaciones de una palabra.
Ocasionalmente, si hay montado un tesauro en la base de datos para controlar la consistencia de la indización o si se tiene la dirección web de uno adecuado, el usuario puede acudir a él cuando los resultados de su consulta no hayan sido satisfactorios. Sin embargo, hay pocos sistemas que mantengan una conexión transparente entre la lista de términos invertidos y el tesauro. En cuanto a aquellos creados con html, salvo excepciones dejan mucho que desear, y tal como está la Red sería terriblemente costoso en tiempo intentar acceder a uno para construir correctamente una consulta.
La mayoría de los tesauros integrados en bases de datos usan códigos bastante crípticos para indicar cuándo un descriptor del índice invertido lo es también del tesauro. La función consistente en “expandir” el término para recuperar el registro en base a sus relaciones.
En muchos casos este proceso requiere un comando por separado que, generalmente, interrumpe el proceso de consulta. En una búsqueda online, tendría como consecuencia que el usuario ignorase el tesauro definitivamente.
Por otra parte, los tesauros web conectados con bases de datos offline tienen su talón de Aquiles en la forma de conexión: CGI, aplicaciones Java o Visual Basic, scripts de todo tipo, Jdbc o módulos de los propios Sgbd. Cuando se enfrentan al reto de posibilitar el acceso vía internet a grandes bases de datos, suelen fracasar.
Actualmente se vive en una época de grandes cambios en este campo: Graphical user interfaces (GUIs) y nuevas posibilidades de uso del hipertexto. Hay autores (Cochrane, 1992) que creen necesario que el usuario disponga de una herramienta híbrida entre tesauro automático, base de datos y opac que sea capaz de ayudarle en el proceso de recuperación de información.
«Los tesauros, como instrumentos clasificatorios para microdisciplinas no se adaptan ni a los medios ni a los fines del modelo cognitivo usado por los seres humanos para estructurar y gestionar la información»
Susan Jones (1995) describe ciertos experimentos en navegación interactiva de tesauros con reglas inteligentes. Revisa los intentos que se han hecho en este sentido: relaciones ponderadas entre los términos, proceso de la co-ocurrencia entre ellos para presentar una concordancia al usuario, tesauros hipertextuales, diferentes técnicas de navegación, etc. Todo con el objetivo de establecer un modelo de recuperación de información a través de este vocabulario. “El componente tesauro en los sistemas de recuperación de información no ha sido considerado aisladamente y por eso no es posible evaluar su contribución al funcionamiento global de dichos sistemas”.
Un tesauro puede verse como un puente entre las consultas planteadas en lenguaje natural y una estructura clasificatoria abstracta que constituye el mapa de un dominio en particular. Se puede ver el tesauro como una fuente de términos del lenguaje natural para la construcción de consultas en un contexto más amplio: el www. Quizás esté empezando a existir la necesidad de crear estas herramientas hechas para humanos cuyas relaciones, términos, etc. —sin dejar de ser gestionables—, pertenezcan a un nivel transparente para el usuario.
En otras palabras, quizá sea el momento para el uso de un nuevo tipo de interfaz que proporcione acceso y capacidad de gestión a un tesauro automático que a su vez estuviera conectado con fuentes primarias, convirtiéndose en una especie de navegador de tesauros.
Un modelo así debería ser capaz de representar, incluso gráficamente, el total del contexto jerárquico de un descriptor así como todos los términos asociados a él. La presentación se haría mediante un espacio ordenado, hipertextual en el cual el usuario pudiera moverse y seleccionar términos de consulta sin perder de vista el contexto general o tener que cambiar de pantalla para desplazarse a un módulo de consulta.
Software Lexico para tesauros
Es un sistema de gestión diseñado expresamente para soportar la creación, mantenimiento y edición de vocabularios automáticos. Está basado en Java. Su interfaz es un navegador web estándar, con lo que se puede acceder y manipular el tesauro desde el www. Además los campos de nota descriptiva permiten acceder a información útil sobre el término: instrucciones de catalogación y recuperación, información histórica, etc. Pueden añadirse términos y relaciones provisionales pero permanecen temporalmente hasta que son aprobados.
Es posible crear microtesauros eligiendo uno o más términos y expandiendo sus jerarquías. La Library of Congress utiliza la versión anterior de Lexico, lexico/2, para gestionar los siguientes tesauros a través de los módulos de búsqueda BRS/Search:
Thesaurus for graphic materials:
http://lcweb.loc.gov/lexico/tgm1/brsearch.html
Global legal information network thesaurus:
http://lcweb.loc.gov:8081/lexico/glin/brsearch.html
Legislative indexing vocabulary:
http://lcweb.loc.gov/lexico/liv/
brsearch.html
Symbols of american libraries listing (no accesible).
Otros tesauros online que usan Lexico y que están mantenidos por la misma empresa que desarrolla este programa, Pmei —Project management enterprises incorporated—, son:
Adult literacy thesaurus:
http://www.pmei.com/alt/
Nuclear regulatory commission PDR thesaurus:
http://www.pmei.com/nrc/
U. S. General accounting office document handling (no accesible).
Formatos de presentación y edición: puede presentar y editar tesauros en los formatos: alfabético, jerárquico o Kwoc. Sólo hay que hacer clic para darle a cada término su contexto alfabético o jerárquico.
Accesible vía web: como ya se ha dicho este programa se basa en Java y por lo tanto es multiplataforma e independiente de cualquier arquitectura de cliente que se esté usando. Los tesauros diseñados y mantenidos con Lexico pueden ser accesibles y manipulados vía internet y/o intranet. También es posible añadir (si se tienen los permisos para ello) enlaces a nuevas URL para permitir la utilización de bases de datos, buscadores, etc.
Filtrado de datos: las operaciones de filtrado permiten la extracción de datos basados en criterios seleccionados. Localizar todas las ocurrencias de una palabra mal deletreada o incompleta, mostrar solamente términos validados, modificados antes de una fecha dada, cuyas notas de alcance contengan una cadena de texto específica, que incluyan más de treinta términos más genéricos, etc.
Opciones de presentación: el usuario puede configurar aquella que desea. Presentar toda la información correspondiente a un término (fuentes, etc.), suprimir los detalles administrativos (como la fecha de validación del término), anteponer las notas o las relaciones, presentar la jerarquía e incluso aquella que se encuentra asociada, etc.
El hecho de que la Library of congress haya implementado sus tesauros online con Lexico y BRS/Search es ya toda una garantia de calidad para estos productos. Pero además, Lexico podría ser el tipo de software ideal para diseñar y gestionar tesauros xml. El programa está basado en Java, lenguaje del que hacen uso continuo los desarrolladores de xml. Hay que tener en cuenta que tanto Java como xml están orientados al web y tienen una clara vocación multiplataforma. Por otra parte Java es un lenguaje orientado a objetos, lo que abre todo un campo de nuevas posibilidades en cuanto a gestión de información textual.
Conclusiones
Los tesauros, como instrumentos clasificatorios para microdisciplinas, no se adaptan ni a los medios ni a los fines del modelo cognitivo usado por los seres humanos para estructurar y gestionar la información y, lo que es peor, en muchas ocasiones no responden con toda la eficiencia deseable a los objetivos para los que fueron diseñados.
Esos medios y fines han sido replanteados en varias ocasiones, y las posibilidades que abre actualmente internet parecen estar llamando a una nueva reconsideración que se podría enfocar desde las siguientes necesidades:
Todo esto lleva a la conclusión de que es necesario un formato flexible y adaptado al nuevo contexto del web para desarrollar una nueva generación de tesauros. En el siguiente artículo se argumentará por qué xml podría ser ese formato.
Notas
Bibliografía
American Society of Indexers.
http://www.ASIndexing.org
Bruner, J. S. On knowing: essays for the left hand. Cambridge, Mass.: Belknap press of Harvard university, 1979.
Cochrane, P. A. “Indexing and searching thesauri: the Janus or Proteus of information retrieval”. En: Classification Research for Knowledge Representation and Organization, 1992, pp. 161-178.
Drae. Diccionario de la lengua española. Madrid: Real Academia Española, 1992.
Geckeler, H. “Semántica estructural y teoría del campo léxico”. En: Biblioteca románica hispánica, 1983, v. 241, pp. 283-389.
International Standard ISO-2788. Documentation B guidelines for the development of monolingual thesauri, 1986.
Jones, S. “Thesaurus data model for an intelligent retrieval system”. En: Journal of Information Science, 1993, n. 19, pp. 167-178.
Jones, S., et al. “Interactive thesaurus navigation with intelligence rules”. En: Journal of the American Society for Information Science, 1995, v. 46, n. 1, pp. 52-59.
Lancaster, F. W. Vocabulary control for information retrieval. Arlington, 1986.
Martínez de Sousa, J. Diccionario de bibliología y ciencias afines. Madrid: Fundación Germán Sánchez Ruipérez, 1993.
Paice, Chris D. “A thesaural model of information retrieval”. En: Information Processing and Management, 1991, v. 27, n. 5, pp. 433-447.
Rada, R. y Martin, B. K. “Augmenting thesauri for information systems”. En: ACM Transactions on office information systems, 1987, n. 5, pp. 378-392.
Slype, G. V. Los lenguajes de indización: concepción, construcción y utilización en los sistemas documentales. Madrid: Fundación Germán Sánchez Ruipérez, 1991.
Svenonius, F. “Compatibility of retrieval languages: introduction to a forum”. En: International Classification, 1983, n. 10, pp. 2-4.
Thesaurus construction and use.
http://www.willpower.demon.co.uk/thesbibl.htm
Usmarc. Usmarc format for authority data. Washington: Library of Congress, 1995.
Antonio de la Rosa.
a.de.la.rosa.pinero ARROBA let.rug.nl
Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1999/julio/tesauros_tesauros_automaticos_tesauros_automaticos_online.html