El profesional de la información


Noviembre 1997

Descripcion de recursos en internet: el Dublin Core

Por José Manuel Barrueco y Cristina García Testal

Internet ha enfrentado a los profesionales de la información con el reto de abordar la descripción bibliográfica de los recursos electrónicos disponibles. Unos recursos cuyo número crece de forma exponencial y que para complicar aún más la tarea pertenecen a la más variada tipología.

Podemos encontrar desde revistas electrónicas hasta imágenes de satélites, registros sonoros, documentos multimedia, etc.

Como en cualquier biblioteca, los documentos existentes en la red han de estar descritos. Deben existir unas herramientas bibliográficas a través de las cuales puedan ser fácilmente localizados y recuperados por los usuarios. Igual que en cualquier biblioteca, todo documento que no pueda ser localizado es un documento inexistente. Esto es precisamente lo que está ocurriendo con muchos documentos electrónicos en internet. Dada la falta de unas herramientas bibliográficas adecuadas de búsqueda y localización, la audiencia de los documentos electrónicos en muchos casos se verá limitada a una pequeña comunidad de usuarios más o menos próximos al autor, o bien a usuarios que los encontrarán accidentalmente después de muchas horas de navegar por el hiperespacio.

Figura 1

  • Subject: tema tratado por el objeto.
  • Title: nombre del objeto.
  • Author: persona/s directamente responsables del contenido intelectual del objeto.
  • Publisher: agente o institución responsable de hacer el objeto disponible.
  • OtherAgent: persona/s, tales como editores, traductores, etc., que hayan hecho otra contribución intelectual significativa al trabajo.
  • Date: fecha de publicación.
  • ObjectType: tipo de objeto, p. ej., novela, poema o diccionario.
  • Form: representación física del objeto, por ejemplo un fichero postscript o un ejecutable Ms-dos.
  • Identifier: código utilizado para identificar el objeto.
  • Relation: relación del objeto con otros.
  • Source: objetos, ya sean impresos o electrónicos desde los cuales el objeto que es descrito se deriva.
  • Language: lengua del contenido intelectual del objeto.
  • Coverage: características de localización espacial y temporal del objeto.

Descripción de documentos

Hasta el momento la descripción de dichos documentos se ha abordado desde dos perspectivas muy distintas. En primer lugar tenemos los robots o localizadores, como Lycos o Altavista, que automáticamente crean índices del texto completo de las páginas existentes en el web. Este tipo de índices puede ser útil en pequeñas colecciones dentro de un dominio dado, pero cuando el número de documentos aumenta aparecen los problemas derivados de la falta de un vocabulario controlado.

Otro problema añadido es el hecho de que muchos recursos en internet no tienen más descripción que un nombre de fichero. Es el caso de las imágenes, etc., que quedan fuera de la cobertura de estos índices.

Por otra parte, existen intentos de describir recursos electrónicos utilizando los formatos existentes para la descripción de documentos tradicionales. Por ejemplo utilizando el formato Marc, como lo está haciendo el Oclc. Estas descripciones no pueden ser realizadas automáticamente y requieren del bibliotecario o documentalista una enorme cantidad de tiempo, lo que en la práctica las hace casi incompatibles con el entorno dinámico que es internet, donde los documentos tienen una vida corta, se actualizan, cambian de localización, etc.

Con este método únicamente podría ser descrito un pequeño número de los más importantes recursos.

Una solución intermedia, no implementada aún, sería crear manualmente un registro que sea más informativo que la entrada en un índice de un localizador, pero menos que un registro catalográfico tradicional. Dicho registro podría ser generado por el mismo autor o productor del documento. Dado que internet contiene más información de la que los bibliotecarios pueden gestionar utilizando los métodos y sistemas existentes en la actualidad, es necesario que nuevos participantes (como los autores) formen parte de este proceso a través de un medio que les permita describir sus propias obras.

Ello exigirá dos condiciones previas nada fáciles de lograr: una concienciación de la importancia que tiene dicha descripción para la posterior recuperación de los documentos por los lectores, así como un aprendizaje de las técnicas de descripción de los documentos. Unas técnicas que deberían ser lo suficientemente claras y sencillas como para ser utilizadas fácilmente por personas que no tienen por qué conocer nada del mundo de la documentación.

Por otro lado si esa descripción sigue unas normas precisas, podría ser coleccionada automáticamente por robots que generarían bases de datos con las mismas.

Dublin Core

Ésta es la idea a partir de la cual surgió el Dublin Core hace algo más de dos años en un seminario organizado en Dublín (Ohio) por la Office of Research del Online Computer Library Center (Oclc) y el National Center for Supercomputing Applications (Ncsa). Entre los participantes se encontraban bibliotecarios, informáticos, representantes de servicios de información online, de museos, archivos, etc.

El objetivo de este seminario era identificar y definir un conjunto de elementos, lo más simple posible, para describir recursos de información en internet.

Si consideramos como documento una prepublicación electrónica, su representación física puede variar desde un simple fichero ascii conteniendo su texto completo, hasta una multiplicidad de ficheros para cada parte de la misma: uno para el texto, otro para gráficos, otro para imágenes e incluso más ficheros si el artículo se quiere hacer disponible en varios formatos, como postscript, pdf o WordPerfect, al mismo tiempo.

Figura 2

<HTML>
<HEAD>
<TITLE>Descripción de recursos en internet: el Dublin Core</TITLE>
<META NAME="package" CONTENT="(TYPE=begin)(VERSION=0.1) Dublin Core"><LINK REL=SCHEMA.dc HREF="http://purl.org/metadata/dublin_core_elements">
    <META NAME="DC.title" CONTENT="Descripción de recursos en internet: el Dublin Core">
    <META NAME="DC.subject" CONTENT="(SCHEME=keyword) Resource Discovery, DC, Dublin Core, Metadata, Information Retrieval">
    <META NAME="DC.creator" CONTENT="(TYPE=name) José Manuel Barrueco">
    <META NAME="DC.creator" CONTENT="(TYPE=name) Cristina García">
    <META NAME="DC.date" CONTENT="(TYPE=current) (SCHEME=ISO31) 1997-04-16">
    <META NAME="DC.form" CONTENT="(SCHEME=imt) text/html">
    <META NAME="DC.identifier" CONTENT="(TYPE=url) http://www.iwe.es/DC/">
    <META NAME="DC.objectType" CONTENT="(TYPE=form) article">
    <META NAME="DC.language" CONTENT="(SCHEME=iso639) sp"><LINK REL=SCHEMA.iso639 REFERENCE="ISO 639:1988 Code for the representation of names of languages">
    <META NAME="DC.rights" CONTENT="Copyright IWE">
<META NAME="package" CONTENT="(TYPE=end)(VERSION=0.1) Dublin Core">
 
 ...
</HEAD>
<BODY>
<H1>Descripción de recursos en internet: el Dublin Core</H1>

Items de descripción

Teniendo como punto de partida estas limitaciones se definió un conjunto de trece elementos para la descripción de DLOs, que se encuentran en la figura 1. El conjunto de estos elementos se denominó Dublin Core.

Todos ellos se caracterizan por ser:

  • intrínsecos, ya que describen cualidades intrínsecas del documento;
  • extensibles, puesto que permiten la inclusión de nuevos datos para aquellos objetos que no puedan ser descritos adecuadamente por ese conjunto inicial;
  • independientes, de la sintaxis utilizada;
  • opcionales, para facilitar la tarea a los autores no hay ningún elemento obligatorio, en la confianza de que la más mínima descripción será mejor que nada;
  • modificables, al poder ser concretados por calificadores adicionales, por ejemplo el elemento Subject puede ser concretado por el calificador scheme de la forma siguiente scheme=LCSH para indicar que los términos están sacados de los Library of Congress Subject Headings; al igual sucede con el resto de elementos.
  • repetibles, todos los elementos que pueden repetirse tantas veces como sea necesario.

Entre los problemas que se identificaron ya en la primera reunión para la utilización del Dublin Core podemos citar los siguientes:

  • La pobreza en las definiciones, tanto de los elementos como de los objetos a los que puede ser aplicado el Dublin Core. Aunque este punto quedaba fuera del tema de esta reunión, los autores reconocieron que eran necesarias para futuros desarrollos.
  • La falta de interés por parte de los autores y editores de material electrónico a la hora de proporcionar descripciones. Aunque ésta es una cuestión que escapa al Dublin Core, se trabajó en el desarrollo de mecanismos prácticos que facilitaran el trabajo de los mismos.
  • Predominio de los elementos catalográficos en detrimento de la descripción administrativa y operacional de los objetos. En contra de lo que sucede cuando catalogamos materiales tradicionales, al describir recursos electrónicos no son suficientes los tradicionales elementos descriptivos sino que, además, necesitaremos nuevos elementos, tan importantes o más que los primeros, para describir operaciones como la gestión del objeto: quién tiene acceso a él, cuándo ha sido modificado por última vez, etc.; términos y condiciones para la utilización del objeto; unión o relación con otros datos u objetos; datos estructurales que definen los componentes lógicos de objetos complejos y cómo acceder a los mismos; etc.

Estos problemas fueron abordados nuevamente en abril de 1996 en una segunda conferencia celebrada en la Universidad de Warwick, en el Reino Unido. Entre los logros de esta conferencia está la definición de una arquitectura para la descripción de objetos denominada el Warwick Framework (WF).

Los participantes estuvieron de acuerdo en que diferentes comunidades de usuarios o distintas áreas de aplicación requerirían diferentes elementos, o distintos niveles de complejidad para los elementos señalados anteriormente.

Para satisfacer esta necesidad de compatibilidad y complementariedad con otros sistemas de metadatos (es decir, datos sobre datos) se hacía necesaria una arquitectura que permitiera la integración de distintos conjuntos de metadatos (es decir, datos sobre datos) mantenidos por diferentes instituciones o autoridades. Esta arquitectura es el WF.

El Warwick Framework

Se estructura en torno a dos componentes básicos: un elemento denominado contenedor o unidad destinada a "contener" distintos conjuntos de descripciones y metadatos denominados paquetes.

Los contenedores se pueden clasificar en dos tipos, dependiendo de si son referenciados internamente al objeto que se está describiendo (internally-referenced) o externamente. Los primeros constituyen aquellos elementos que el autor o editor del objeto han seleccionado para describir el mismo. Para asemejarlo al mundo impreso sería algo similar a la catalogación en publicación (CIP). Los segundos son creados y mantenidos por una autoridad distinta, y equivaldrían en nuestro ejemplo a las descripciones hechas en las bibliotecas.

Los paquetes por su parte pueden ser de tres tipos.

  • Conjuntos de metadatos: serían paquetes propiamente dichos, al contener las descripciones en su totalidad o en partes. Un ejemplo de este tipo de paquetes sería un registro Marc, o un registro Dublin Core.
  • En segundo lugar estarían los paquetes indirectos, que son referencias a otros objetos en la estructura de la información. Esta redirección se puede realizar a través de URIs (Uniform Resource Identifiers) tales como URLs (Uniform Resource Locators) o URNs (Universal Resource Names).
  • Finalmente tenemos el paquete tipo contenedor. Éste es un paquete que, a su vez, contiene otros paquetes de forma recursiva. Gráficamente, el contenedor que describiría un recurso dado se puede expresar según se expone en la figura 1.

La implementación práctica de esta arquitectura se puede llevar a cabo a través de tres procedimientos: por medio de las normas Mime y Sgml así como del lenguaje Html. Este último medio puede ser el más fácil de utilizar por parte de los autores y productores de información electrónica.

La etiqueta (<meta>) puede llevar dos atributos name y content. El primero, a su vez, se subdivide en dos partes separadas por un punto: nombre del esquema seguido para generar la descripción, en este caso el Dublin Core (DC) (otro valor válido podría ser Marc para registros que sigan este formato). La segunda parte es el nombre de los atributos o elementos utilizados en el esquema indicado.

En el caso del DC deberían adaptarse a los respectivos nombres y valores de los campos definidos anteriormente. En la figura 2 presentamos un ejemplo de registro, utilizando el Dublin Core, para catalogar una hipotética versión electrónica del presente artículo.

En marzo del presente se celebró en Canberra (Australia) una nueva reunión año para el desarrollo del Dublin Core. Entre los objetivos de la misma estaban: temas de extensibilidad, estructura de los distintos elementos así como una más clara definición de los mismos.

Conclusiones

Si bien el Dublin Core es un importante avance en la descripción de recursos electrónicos, aún queda mucho trabajo por delante. Si bien el Dublin Core es un importante avance en la descripción de recursos electrónicos, aún queda mucho trabajo por delante. El DC, a nuestro juicio, tiene como deficiencia más importante la complejidad de su sintáxis, ya que ésta no es tan sencilla como para que pueda ser utilizada por usuarios "no expertos". En parte este problema quedará subsanado cuando empresas como SoftQuad (propietaria del famoso editor de html HotMetal) decidan transformar el proceso de creación de estas etiquetas en un cómodo sistema basado en asistentes. En honor a la verdad, hay que decir que ya existen en internet numerosos servidores que ponen a disposición del público programas que facilitan la inserción de estos elementos en páginas web.

Bibliografía sobre el tema

Lagoze, Carl , et al. The Warwick Framework: A container architecture for aggregating sets of metadata.

http://cs-tr.cs.cornell.edu:80/Dienst/UI/2.0/Describe/ncstrl.cornell/TR96-1593

Lou Burnard , et al. A Syntax for Dublin Core Metadata: Recommendations from the Second Metadata Workshop

http://purl.oclc.org/net/eric/DC/syntax/metadata.syntax.html

Dempsey, Lorcan; Weibel, Stuard L. The Warwick Metadata Workshop: A Framework for the Deployment of Resource Description.

http://www.dlib.org/dlib/july96/07weibel.html

Miller, Paul. Metadata for the masses. Ariadne, no 5. September 1996.

http://www.ukoln.ac.uk/ariadne/issue5/metadata-masses/intro.html

Entre reuniones los trabajos del DC se canalizan a través de la lista de discusión:

meta2 ARROBA mrrl.lut.ac.uk

Cristina García-Testal. testal ARROBA uv.es

José Manuel Barrueco. j.barrueco ARROBA surrey.ac.uk

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1997/noviembre/descripcion_de_recursos_en_internet_el_dublin_core.html