El profesional de la información


Febrero 1994

Consideraciones sobre los tesauros

Por Domènec Turuguet

Domènec Turuguet, químico documentalistaEl tesauro es una de las herramientas más útiles de la Documentación. En el período que siguió a su aparición en el siglo pasado, y luego sobre todo, con la documentación moderna, fue considerado como indispensable para el tratamiento idóneo de la información. Sin embargo, con el advenimiento de la informatización y las bases de datos documentales consultables por texto libre, pasó a un segundo término. Ahora su uso se ha revitalizado nuevamente, y se considera imprescindible para un tratamiento correcto de las bases documentales.

El origen de la palabra tesauro hay que buscarlo en el mundo clásico latino y griego, donde tesauro era sinónimo de diccionario o tesoro de una determinada lengua. Ya en épocas más recientes (s. XVI), se tiene constancia del Thesaurus puerilis, de Onofre Pou, en catalán.

Pero, más acorde con el significado actual, el vocablo se deriva del Thesaurus de Peter Mark Roget, médico inglés que en 1805, cuando tenía 26 años, concibió para su uso particular un catálogo clasificado de palabras. No fue, sin embargo, hasta 1852, a la edad de 73 años, que publica por primera vez el Roget's Thesaurus, del cual por lo menos se ha hecho una treintena de ediciones.

La base del Roget es una clasificación en 6 grandes categorías, divididas a su vez en subcategorías:

  1. Conceptos abstractos: Existencia, relación, cantidad, orden, número, tiempo, cambio y causa.
  2. Espacio: Generalidades, dimensiones, formas y movimiento.
  3. Materia: Generalidades, materia inorgánica y materia orgánica.
  4. Intelecto. Se divide en dos grandes subcategorías: Formación de ideas y Comunicación de las mismas, encontrándose dentro de cada una de éstas otras divisiones:
    1. Formación de ideas: Generalidades, condiciones y operaciones precursoras, materiales para el razonamiento, resultados del razonamiento, extensión del pensamiento y pensamiento creativo.
    2. Comunicación de ideas: Naturaleza de las ideas comunicadas, formas de comunicación y medios para la comunicación de las ideas.
  5. Volición (acto de voluntad). Se divide también en:
    1. Individual: Generalidades, volición prospectiva, acción voluntaria, antagonismo y resultados de la acción.
    2. Intersocial: Generalidades, volición especial, volición condicionada y relaciones posesivas.
  6. Afecciones: Generalidades, personales, simpatías, morales, religión.

Si bien los actuales tesauros científicos y técnicos no parece hayan seguido demasiado esta división conceptual, es conveniente tenerla presente y no olvidar cuál es el fundamento de cualquier tesauro, por pragmático que éste quiera ser. El pragmatismo no ha de hallarse reñido con el rigor conceptual; al contrario, un cierto rigor es el mejor aliado del pragmatismo.

Tampoco habría que olvidar, por su gran utilidad como ideas matrices para la indización de cualquier colección documental monotemática, las cinco categorías de Ranganathan : personalidad, materia, energía, espacio y tiempo, que guardan un cierto parecido con las de Roget.

Tipos de relaciones entre los términos

Una definición del lenguaje documental que conocemos como tesauro, es la siguiente:

Vocabulario controlado de términos, tanto alfabéticos como numéricos o alfanuméricos, con relaciones jerárquicas y asociativas entre ellos, el cual contiene tanto los términos aceptados (descriptores) como aquellos que remiten a los aceptados, con indicación del alcance de uso de cada uno de los términos aceptados y, en general, con un esquema clasificatorio amplio, dentro del cual pueden adscribirse todos los términos aceptados.

También debería formar parte de la definición el que el vocabulario se refiere a un campo concreto o específico de la ciencia o de la técnica.

Las relaciones entre los distintos términos del tesauro son, fundamentalmente, de los siguientes tipos:

  1. De equivalencia o sustitución preferente, las cuales en inglés acostumbran a indicarse por la expresión "use" (utilícese) o "use for" (usado por, o usado en vez de). Deberían sólo emplearse para términos sinónimos o cuasi sinónimos, pero acudiendo al pragmatismo que ha de regir todo tesauro (no reñido con el rigor), pueden emplearse con los sinónimos virtuales, que son cuasi sinónimos pero exclusivamente en el contexto del tesauro.
  2. Relaciones jerárquicas o de parte-todo, las cuales se acostumbran a representar por las expresiones inglesas "broader term" (término más amplio), "narrower term" (término más específico).

    Aunque en muchos casos no será necesario, puede distinguirse entre relaciones genéricas o bien partitivas (parte-todo).

    Si atendemos a esta subdivisión tendríamos términos amplios genéricos y términos específicos genéricos, los cuales podrían indicarse abreviadamente como TAG y TEG, respectivamente y, de la misma manera TAP y TEP, podrían indicar términos amplios parte-todo y términos específicos parte-todo.
  3. Relaciones asociativas, cuando el nexo existente entre los términos es de tipo distinto al jerárquico o parte-todo, p. ej., causa-efecto. Son las que permiten conectar cualquier término con otro y establecer relaciones libres sólo válidas dentro del campo concreto del tesauro.

El significado exacto de los términos de un tesauro se delimita mediante notas explicativas, de acotación o de alcance ("scope notes" en inglés).

Otra característica del tesauro es la polijerarquía : a un término dado se asignan varios términos más amplios según distintos puntos de vista, que pueden aumentarse a medida que crece la colección documental a la cual se aplica el tesauro dado.

Tesauro no, tesauro sí, qué tesauro

Han aparecido distintas versiones de "tesauros", desde una simple lista de términos preferentes sin interconexión entre ellos, hasta listas exhaustivas de términos con relaciones a distintos niveles de complejidad y una rígida normativa de aplicación. Estos últimos no cumplen o cumplen mal el principal espíritu tesaurístico de flexibilidad que ha de permitir la realización de búsquedas creativas.

Mi opinión es que un tesauro no ha de ser un simple vocabulario controlado, pero tampoco una red de encorsetamiento que impida la creatividad del indizador o recuperador de la información que se almacena.

En mi ya larga singladura dentro del mundo de la información y la documentación, he encontrado tanto acérrimos enemigos como defensores a ultranza de los tesauros. Creo que su bondad o maldad no se halla en sí mismos, sino más bien en su adecuación o no a una colección documental dada. Esta adecuación depende de muchos factores: tamaño de la colección, uso de la misma, posibilidades de informatización, posibilidades económicas, proyectos de unirla a otras colecciones documentales ya existentes, etc.

Antes de emprender la elaboración de un tesauro es conveniente realizar un análisis costo-eficacia. Aparte de lo comentado anteriormente, una de las cuestiones que siempre se plantea, es la de si hay que aprovechar un tesauro preexistente o es mejor crear uno nuevo. La contestación no es sencilla, ya que intervienen múltiples variables, entre las cuales se encuentra la de que esté en una lengua extranjera, probablemente en inglés. Las traducciones crean problemas adicionales: a menudo un término del tesauro original da lugar a dos o más traducidos, es difícil tener equivalencias perfectas y quizá algunos términos sean intraducibles. Como solución provisional puede usarse el tesauro original, especialmente si se trata de materias científicas y técnicas, pero en temas humanísticos (sociología, arte, literatura, etc.) la dificultad resulta notoria. Sin embargo, la existencia de un tesauro temáticamente afín al que se pretende elaborar siempre es una buena ayuda.

Tesauro previo o hecho sobre la marcha

Otra cuestión crucial es si el tesauro ha de ser construido a priori o a posteriori, esto es, si se incluyen todos los términos que teóricamente deberían formar el campo temático cubierto, o bien, sólo los que corresponden a los documentos reales que forman la colección documental. Mi parecer se inclina por una aproximación a posteriori, pues para los usuarios resulta decepcionante encontrar términos para los cuales no hay documento alguno. Si el tesauro se halla bien estructurado, la adición de nuevos términos con las correspondientes relaciones, a los ya existentes no ha de representar mayor problema.

Fases de implementación

A tenor de lo comentado hasta ahora, las etapas para la elaboración de un tesauro a partir del momento en que se considera conveniente su construcción (resultado de haber contestado afirmativamente a cuestiones previas tales como disposición de la suficiente dotación económica, suficiente volumen de la colección documental y suficientes recursos humanos e informáticos para invertirlos en la operación) serán:

  1. Delimitación del campo temático que ha de abarcar.

    Viene fijado por la colección documental, así como por los objetivos de la institución o ente donde se halla.
  2. 2. Búsqueda de tesauros existentes.

    Determinar si ya existe algún tesauro u otro tipo de clasificación de la misma temática. Siempre puede resultar una ayuda estimable la consulta de la Clasificación Decimal Universal (CDU) en los apartados coincidentes con la temática del futuro tesauro.
  3. Elaboración de un primer esquema clasificatorio general.

    Sus apartados se rellenarán con los términos de indización utilizados en el examen previo de los documentos de la colección, para a continuación normalizar según terminología preferente cada uno de ellos y crear las relaciones de equivalencia.
  4. Elaboración del tesauro.

    En esta fase se ha de realizar minuciosamente el examen de los términos, aplicando a cada uno las relaciones jerárquicas y asociativas, después de haber acotado el significado de cada uno.

    Actualmente resulta casi imprescindible la utilización de algún programa informático, como el Beat ("Buen entorno para la administración de tesauros") de Josep Sau (v. IWE-4, p. 6), que además de para crear y actualizar el tesauro, es útil también para su edición impresa y su consulta.
  5. Pruebas beta.

    Una vez terminada (o al menos avanzada) la elaboración del tesauro, se realizan pruebas de recuperación de la información contenida en la colección documental, para poder observar la eficacia. Se harán correcciones a la vista de las imprecisiones o defectos que se hayan producido.
  6. Publicación.

    La edición final del tesauro, primero en una tirada corta, contendrá las siguientes partes:
    • esquema clasificatorio general,
    • lista alfabética de descriptores y no descriptores, con indicación de las interrelaciones entre ellos y pertenencia a los grupos del esquema general,
    • lista permutada de términos (opcional).

Como punto final, insistir en que sólo hay que elaborar un tesauro cuando sea estrictamente necesario y según criterios de costo-eficacia. Y en caso de decidir emprender esta tarea, tener en cuenta, sobre todo, la coherencia semántica y gramatical y la aplicación de las normativas existentes.

Domènec Turuguet ha sido director del Centro de Documentación del Instituto de Higiene y Seguridad en el Trabajo del Mº de Trabajo, y director del Servicio de Documentación del Centro de Investigación y Desarrollo del Csic, ambos en Barcelona. Actualmente es consultor privado.

Tel.: +34-3-203 32 52

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1994/febrero/consideraciones_sobre_los_tesauros.html