El profesional de la información


Julio 1998

XLL e hipertexto: un nuevo desafio a nuestra capacidad de adaptacion

Por Antonio de la Rosa Piñero

Resumen: Actualmente la World Wide Web es el medio ideal para desarrollar completamente el concepto de hipertexto. Sin embargo, los documentos electrónicos siguen editándose siguiendo patrones más o menos tradicionales. Parece claro que existe un problema de inadaptación, no sólo al medio tecnológico sino al concepto en sí. La especificación XLL (extensible linking language) de la norma en auge XML (extensible markup language) puede agudizar aún más esta inadaptación multiplicando las posibilidades de los enlaces electrónicos, la base del hipertexto.

Palabras clave: XLL (extensible linking language), XML (extensible markup language), Sgml (standard generalized markup language), Html (hypertext markup language), Enlaces, World Wide Web, Textualidad.

Title: XLL and hypertext: a new challenge for our capacity to adapt

Abstract: The World Wide Web is now the perfect environment in which the concept of hypertext can be developed completely. However electronic texts continue to be published in more-or-less traditional ways. It seems obvious that there is a problem of adaptation, not only to the technological medium but to the concept itself. The rising standard, XML (extensible markup language), and its XLL (extensible linking language) specification could aggravate even further this inability to adapt, due to the increased possibilities of electronic hyperlinks, the bedrock of hypertext.

Keywords: XLL (extensible linking language), XML (extensible markup language), Sgml (standard generalized markup language), Html (hypertext markup language), Links, World Wide Web, Textuality.

Qué es un hipertexto? Básicamente un tipo de unidad textual compuesta por subunidades interdependientes.

Hipertexto es la suma de estas subunidades que a partir de Roland Barthes1 se llamaron lexias y de los enlaces que las conectan. Hipermedia aumenta la noción de hipertexto incluyendo información visual, sonido, animación u otro tipo de datos. En la actualidad parece poco apropiado distinguir entre hipertexto e hipermedia, ya que es posible unir pasajes de discurso verbal con imágenes, etc., tan fácilmente como con otros pasajes de texto.

Las lexias que nosotros diseñemos, una vez interconectadas pueden ser las que compongan directamente nuestro hipertexto, pero también se les pueden añadir otras externas relacionadas con él.

Lo fundamental es que el hipertexto es "experimentado" -y no simplemente leído- por sus receptores de una forma no-lineal o, más propiamente, multilineal o multisecuencial. Aunque el receptor aplique sus hábitos convencionales de lectura en cada nueva lexia, una vez traspase los límites de éstas para entrar en el hipertexto/hipermedia en sí, necesitará (el receptor final y, mucho más, por definición, un gestor de información) una actitud diferente basada en nuevos conceptos y reglas.

La imagen muestra una sesión del XML Styler versión 2.03 de Arbortext. En la ventana de atrás aparece seleccionado el módulo "Construction rules", que proporciona algo parecido a una "tabla de contenidos" de las reglas de construcción en las hojas de estilo "stylesheets" que el autor quiere aplicar a sus páginas XML. Las reglas de construcción especifican las acciones de formato y características asociadas con un elemento dado. En primer plano aparece la ventana en la que se aplican las especificaciones para el elemento seleccionado, en este caso un párrafo dentro de una lista de items

Precedentes en literatura y filosofía

Tanto este apartado como algunas apreciaciones reiteradas de los demás aluden a una concepción narrativa del hipertexto que en parte se puede atribuir a los trabajos de George Landow2 y otros especialistas en teoría literaria; y que, en principio, no está directamente relacionada con lo que más nos atañe como profesionales: el hipertexto como medio de organización y como gestión de información. Sin embargo, la presencia de estas "divagaciones" se justifica en la medida en que sirven de marco para una introducción histórica del hipertexto y a causa de que el hipertexto como concepto de medio es independiente de las posibles utilidades y desarrollos que se le puedan dar.

David Bolter3 aborda el hipertexto dentro de la historia de la textualidad. Este autor habla de "espacios textuales" que las tecnologías escriturarias dominantes de cualquier época y lugar siempre han mantenido tanto en la mente de escritores y lectores de esa época y lugar como en la presencia material del texto.

La importancia del hipertexto es significativa en cuanto a que, si llegara a convertirse en la tecnología textual dominante de nuestra época (como parece que podría ocurrir en un futuro próximo a causa de la WWW), cambiaría radicalmente nuestra concepción del texto, nuestro "espacio textual".

Sin embargo, el cambio del libro al hipertexto (si llega a producirse) sería sólo uno más en la larga lista de cambios históricos en la forma y concepción del texto. Asumir completa y conscientemente ese cambio y sus implicaciones es lo realmente importante. Desgraciadamente en la actualidad la velocidad en el desarrollo de las nuevas tecnologías y la gran cantidad de posibilidades a nuestro alcance limitan mucho nuestra capacidad de asimilación.

Existen claros precursores formales del hipertexto en la literatura: Laurence Sterne4, James Joyce5 o Jorge Luis Borges6 entre otros. Además, el concepto está íntimamente ligado con las teorías de textualidad e intertextualidad planteadas por el citado Roland Barthes7 y Julia Kristeva8.

Por otra parte ¿no era la biblioteca tradicional un intento de almacenar todo el conocimiento en una especie de masa literaria vagamente interrelacionada? Y del mismo modo: ¿no trataba la Enciclopedia de resumirlo; la CDU de clasificarlo, etc., etc.? La WWW, concebida como un enorme documento hipertextual, parece el instrumento más poderoso que hemos tenido a nuestro alcance para hacer realidad estas fantasías globalistas.

Todas ellas tenían algo en común: el propósito -a veces disimulado- de organizar el conocimiento sistemáticamente, es decir, en función de un número indefinido de temas o materias. El hipertexto funciona casi exclusivamente por materias. El hecho de que un lector pueda conscientemente seleccionar y organizar el texto para sí mismo implica una serie de cambios radicales; por ejemplo, podrían plantearse cambios profundos en el concepto tradicional de autoría, puesto que es el propio lector el responsable final del documento que obtiene.

El módulo Scripts de XML Styler. Este componente ofrece una interface simple para editar los scripts que se quieran incluir en las hojas de estilo

Glosario de términos sobre la especificación de enlaces XLL

Recurso: una unidad de información o un servicio que participa en un enlace: archivos, imágenes, documentos, programas, resultados de una búsqueda, etc.

Elemento de enlace: el enlace físico, lo que define a un enlace y describe sus características. Por ejemplo, actualmente todo lo que hay entre las etiquetas <a href=""> y </a>.

Localizador: la cadena de caracteres que forma parte del elemento de enlace que se refiere al recurso.

Título: encabezamiento asociado con el recurso que lo identifica de cara a los usuarios.

Activar un link: la acción de usar un enlace, o, lo que es lo mismo, acceder a un recurso. Un enlace puede ser activado por un usuario o mediante un programa.

Enlace multidireccional: un enlace que puede ser activado desde cualquiera de los recursos a los que refiere.

Enlace in-line: el contenido de su elemento de enlace funciona como recurso.

Enlace out of line: este tipo de enlaces sólo tiene sentido si tenemos en cuenta conceptos como el de "grupo de enlaces", que sirve para instruir a las aplicaciones sobre dónde deben buscarlos.

Arbortext ha sido una de las empresas que más rápido se ha decantado por el desarrollo e implantación del XML

Qué aporta un hipertexto

Desde que Vannevar Bush9, consejero en cuestiones científicas de Roosevelt, publicó el artículo As we may think, introdujo el concepto de una máquina capaz de interrelacionar información de la misma forma en que los humanos establecen relaciones asociativas, lo que posteriormente dio lugar al concepto de hipertexto, y Theodor Nelson10 en los 50 acuñó definitivamente el vocablo, se ha perseguido que la información sea más accesible e inteligible gracias a la posibilidad de enlazar ideas de una forma sistemática en el nuevo entorno electrónico.

Nelson también es responsable de términos como: hipermedia o docuverso. Es imprescindible visitar el hipertexto que él diseñó en:

http://www.xanadu.net/xanadu

Y muy recomendable leer su libro Dream machines.

La información en soportes tradicionales está limitada por su medio. El texto tradicional está forzado a ser una secuencia lineal. Las referencias están limitadas a dispositivos (notas a pie de página o paréntesis) que no proporcionan un acceso a la información ni tan rápido ni tan cómodo como el que es posible en los textos electrónicos.

El hipertexto puede ser creado y "leído" de una forma no lineal. Pueden enlazarse los párrafos de un texto en un orden diferente, lo que permite presentar la información de formas distintas. Las referencias y las notas se pueden almacenar en documentos separados, pero es posible enlazarlos con el documento al que referencian. Es esta capacidad de unir porciones de texto relacionadas pero no necesariamente contiguas lo que distingue al hipertexto del texto convencional. Por lo tanto, todo lo que ofrece el hipertexto depende de lo que ofrecen sus enlaces.

Inicialmente se puede pensar que los enlaces son simples conexiones entre dos nodos. Pero, por ejemplo, ya en 1987, Jeff Conklin11 habla de diferentes tipos de enlaces electrónicos y de la posibilidad de un número de formatos ilimitado.

Este artículo afianzó la idea -existente desde los setenta- de que un enlace podía ser algo mucho más complejo que un simple conector entre dos nodos. Un enlace puede por ejemplo, contener metainformación sobre sí mismo e información sobre los nodos que relaciona.

Actualmente, cuando los enlaces son analizados por aplicaciones muy diferentes y tenidos en cuenta (tanto para estudios teóricos sobre la WWW -considerándolos como citas bibliográficas- como para desarrollo de software -agentes, robots de búsqueda, etc.-), es importante definir claramente un estándar de enlaces electrónicos y profundizar tanto como se pueda en las posibilidades que ofrezca.

En teoría un estándar de enlaces se centra en tres ejes:

  • La acción o acciones que el enlace causa en la interface del usuario al activarse.
  • El recurso o recursos a los que el enlace apunta
  • La forma en que el enlace conecta dos o más nodos.

El anuncio de que la versión 5.0 del navegador de Microsoft permitirá visualizar XML ha sido el espaldarazo que este nuevo lenguaje necesitaba para introducirse de lleno en el mercado de la edición electrónica

Hipertexto en la WWW

La forma que ha tomado el concepto de hipertexto tiene un nombre: World Wide Web. La web utiliza documentos en texto ascii formateados mediante el lenguaje de etiquetas html. En cuanto a los enlaces, el html utiliza una etiqueta denominada "anchor" que adopta la forma:

<a href="URL">Texto o imagen usados para identificar el enlace</a>

URL significa Localizador Universal de Recursos, y es el método empleado en la WWW para enlazar información. Un URL define a qué tipo de nodo se refiere el enlace y dónde se ubica física y lógicamente ese nodo. La acción que causa un enlace en la interface de usuario depende del cliente. La WWW no dispone de medios para representar cómo están relacionados los nodos. Por lo tanto, respecto a los tres ejes que se señalaron antes:

  • Los enlaces pueden causar un número muy limitado de acciones en la interface de usuario: mostrar un nuevo nodo o arrancar una aplicación para manejar la información a la que el enlace hace referencia.
  • El recurso al que apunta el enlace viene identificado exclusivamente por el URL y el texto que contenga la etiqueta anchor.
  • No hay más forma que lo dicho en el punto anterior para identificar un nodo o ver cómo se relacionan dos o más nodos.

Desde el World Wide Web Consortium se están dirigiendo los pasos del XML

WWW, el medio ideal para desarrollar hipertextos

El proyecto que Tim Berners-Lee12 presentó al Cern en 1989 y que posteriormente se convirtió en la WWW, básicamente trataba de convencer a esa institución de que necesitaba un sistema hipertexto global para gestionar de una forma rentable la información que producía.

En esta primera época de la WWW, la noción de hipertexto estaba inspirada en programas, comerciales y académicos, que utilizaban enlaces: iconos o frases resaltadas. Haciendo click con el ratón sobre esas áreas sensitivas era posible recuperar "información relevante" o modificar el texto en la pantalla para incluir esa información. Imaginen entonces, las referencias en un documento, todas asociadas con la dirección de la red a la que cada una refiere. De esta forma, mientras se lee ese documento, el lector puede saltar a los demás recursos mediante un click de ratón.

Simplificando mucho podríamos decir que sgml (standard generalized markup language), de donde procede html -el "invento" de Tim Berners-Lee-, es un lenguaje de etiquetas muy complejo que en primer lugar especifica qué clase de documento se está tratando y después aplica las etiquetas apropiadas a esa clase de documento. Html es un subconjunto de etiquetas sgml muy reducido que se empleó para dar formato a los documentos que intercambiaban los físicos del Cern. De ahí es de donde procede la WWW.

¿Por qué html es la tecnología actual del web? La popularidad de este lenguaje se puede explicar refiriéndonos a algunas de sus características:

  • Es muy simple
  • Da un formato atractivo al texto
  • Formato de enlaces sumamente sencillo
  • Fácil edición de formularios
  • Programación muy sencilla (CGI).

Hipertextos/hipermedia

"Hipertexto" es el término que se hizo popular para este tipo de sistemas. Sin embargo se ha usado para aproximarse a dos ideas diferentes: la primera es el concepto de hipertexto como información legible por humanos conectada de forma no lineal. La segunda concibe el hipertexto como documentos multimedia enlazados: hipermedia.

Ahora, estas dos ideas constituyen una realidad ambigua porque la tecnología ha hecho posible que la gestión de contenido multimedia sea tan factible como el proceso de textos. Una vez más el desarrollo de la tecnología ha supuesto la necesidad de asimilar nuevos conceptos y nuevas reglas.

¿Por qué esta creciente importancia de las imágenes y otros tipos de textualidad atípicos que hasta ahora servían como máximo de apoyo al texto? Hay autores que opinan que la naturaleza multimedia -visual por el momento- del hipertexto en la WWW no es un fenómeno nuevo, sino el redescubrimiento de una textualidad muy antigua (léase pictogramas, etc.).

Jacques Derrida13 sostenía que las imágenes (podemos generalizar a otros tipos de medios) constituían en sí mismas un sistema de signos paralelo (e interdependiente) al lenguaje o a la escritura. Un sistema que podía analizarse, hasta cierto punto, extrapolando los principios y las reglas válidos para lenguaje y escritura. Es decir, Derrida defendía la existencia de una interrelación implícita entre lenguaje, imagen y escritura.

Pero Derrida no conoció la WWW. La tecnología ha explicitado esa relación de tal forma que no se puede identificar una característica básica que defina imagen como imagen, lenguaje como lenguaje y escritura como escritura. No existe una demarcación clara entre los diferentes tipos de signos.

Los sistemas mediáticos anteriores separaban claramente los medios audiovisuales de los impresos. La actual red de signos de la WWW acaba con esa separación y redefine las relaciones entre los signos.

Consecuencias de la revolución de la imprenta. Influencias del hipertexto en la WWW

La transición del libro impreso al texto electrónico es perfectamente comparable a la que sufrió el manuscrito para convertirse en libro impreso; sobre todo en cuanto a la inadaptación a la nueva tecnología y al difícil uso del nuevo "espacio textual".

Los impresores del siglo XV comenzaron emulando el aspecto de los manuscritos: fabricaban tipos que imitaban la caligrafía de los escribas e incluso llegaron a usar varios formatos de la misma letra para simular los cambios de mano, tan corrientes en los manuscritos. Después poco a poco el libro impreso se convirtió en lo que actualmente conocemos.

Los autores de hipertextos están, del mismo modo, asimilando las ventajas de su nuevo medio. Probablemente dos de los cambios más significativos del texto electrónico con respecto al libro impreso son: la capacidad de vinculación (de la que habla este artículo) y la capacidad de integrar imágenes, texto y otro tipo de medios. Una técnica, ésta de integrar imágenes y texto que, irónicamente, fue usada para aumentar el efecto en la época de los manuscritos. No parece que haya muchas cosas nuevas bajo el sol.

En este período de cambio y adaptación se producen curiosas paradojas. Al mismo tiempo que algunos celebran la capacidad de los nuevos medios para crear documentos completamente diferentes de los tradicionales -curiosamente el acrónimo html es una referencia directa a este tipo de documentos-, otros, la inmensa mayoría, los aprovechan para editar en un medio electrónico libros y revistas casi completamente convencionales.

Sin embargo, el espectacular desarrollo de las nuevas tecnologías de la información nos proporciona una infinidad de nuevas posibilidades. Esta situación se traduce en nuevos "artefactos" de conocimiento que aparecen continuamente, pero también en una gran confusión e inadaptación.

Desde hace bastante tiempo, existen en internet numerosos servidores que informan sobre los últimos avances del lenguaje XML

Html, sgml y XML. Normas del hipertexto

La introducción del nuevo standard XML y de su especificación para enlaces XLL va a suponer grandes cambios en el concepto de hipertexto/media en particular y en la WWW en general, Holzner14.

Extensible markup language, una norma que está desarrollando el W3C y de la que se habla mucho últimamente. XML es una versión reducida de sgml, diseñada específicamente para documentos web. Permite a los diseñadores crear sus propias etiquetas personalizadas, lo que aumenta las posibilidades que hasta ahora ofrecía html. Un ejemplo: XML incorpora tipos de enlaces multidireccionales (que apuntan a muchos documentos) en contraposición con los enlaces unidireccionales de html (un solo recurso por cada enlace).

Que XML suceda o no al html como estándar depende en buena medida de si será o no soportado por las nuevas versiones de los navegadores más populares (Netscape Navigator/Communicator e Internet Explorer). Por el momento, Microsoft es quien más ha respaldado a XML con el anuncio de que será soportado totalmente por la versión 5.0 de su Internet Explorer. Toda una garantía.

Sgml, otro acrónimo, esta vez de standard generalized markup language, un sistema para organizar y etiquetar elementos de un documento, fue aprobado por la International Standards Organization (ISO) en 1986. En sí mismo no especifica un tipo de formato particular, sino que más bien proporciona las reglas para etiquetar elementos. Esas etiquetas pueden interpretarse también como para dar formato.

Este lenguaje se usa sobre todo para gestionar grandes documentos sujetos a revisiones frecuentes y que deben gestionarse en diferentes formatos. No se utiliza mucho en PCs debido a que es un sistema de tamaño y complejidad considerables. Sin embargo, con el crecimiento de internet y en especial de la World Wide Web, se ha generado un renovado interés en sgml.

Estado actual del html. Sus posibilidades y limitaciones

La razón que ha hecho a html tan popular (su sintaxis sencilla) se ha convertido en su peor defecto. Sus principales limitaciones son:

Enlaces perdidos: las páginas web se mueven constantemente, y los responsables de las sedes web no pueden dedicar todo su tiempo a actualizarlas. Existen comprobadores automáticos de enlaces que pueden avisar cuando uno se rompe (bookmarks de Netscape), pero el problema real es que el html no ha desarrollado el concepto (tan simple en teoría) de un depósito central de enlaces.

Automatización limitada: la automatización de procesos ahorra trabajo, reduce costes, da velocidad, mejora la calidad y sobre todo es posible en el entorno de la WWW. Pero el html es una barrera para la automatización, puesto que todos los procesos altamente mecanizados se construyen sobre formatos de datos muy expresivos y absolutamente consistentes (es decir, estructurados). Html carece por completo de expresividad, ya que se halla reducido a un conjunto fijo de etiquetas orientadas a la presentación de la información. Y carece también de consistencia, puesto que es imposible utilizar una estructura rigurosa de datos sobre esas etiquetas.

Sintaxis: html obstruye la validación, ya que no es una especificación rígida. En lugar de comprobar los documentos para determinar su validez, los navegadores web ignoran las violaciones de la sintaxis para robustecer el proceso de visualización. Es decir, en la mayoría de los casos el código html está escrito incorrectamente, pero el navegador ignora esas incorrecciones.

Ampliación: los desarrolladores no pueden crear sus propios identificadores para reflejar las relaciones semánticas de sus contenidos, ya que este lenguaje no es ampliable. Las extensiones html son prestaciones propietarias del cliente, lo que nos lleva a la guerra de los navegadores.

Estructura: html tiene un conjunto invariable de etiquetas que ante todo sirven para dar formato a los documentos. La razón por la que se inventó sgml fue para separar la información de su formato. La falta de estructura del html hace que no pueda utilizarse prácticamente más que para dar formato, y esto causa que se olviden posibles utilidades como la reutilización de los documentos, el intercambio o la automatización de procesos. Los documentos html son relativamente planos, lo que limita las búsquedas al texto completo y vuelve confusa la navegación.

Contenido: html revuelve la información y la metainformación. Los formatos vistosos, como el texto a dos columnas, precisan trucos por parte del desarrollador de contenidos. Las hojas de estilo constituyen un intento de solucionar este problema.

Internacionalización: el soporte de caracteres especiales o internacionales (los caracteres de dos o más bytes y las fórmulas matemáticas sobre todo) es inexistente en html, o, en el mejor de los casos, incoherente.

Intercambio de datos: internet es un medio ideal para el intercambio de datos. Sin embargo, el html lo limita mucho, porque su reducido e invariable conjunto de etiquetas indica solamente la apariencia de un elemento dentro de un documento. Html no proporciona nada para indicar el tipo de información dentro del documento.

Reutilización: muchas organizaciones publican la misma información en diferentes formatos. Es muy común encontrarse con versiones en cd-rom, impresas o en web de los mismos datos. En principio la información debería poder ser reutilizada. Sin embargo, la reutilización requiere una conversión de datos y en muchos casos intervención manual para la composición final del documento resultante. Y esto significa que, cada vez que la información cambie, todo el proceso debe repetirse. Esto es una pérdida de recursos que una organización con muchos documentos no puede permitirse, y por eso sgml ha tenido éxito en grandes sistemas distribuidores de datos como el American Heritage Virtual Archive Project

http://sunsite.berkeley.edu/amher/proj.html

El html dificulta la reutilización de la información. Para que los mismos datos puedan publicarse en la WWW, imprimirse y mantenerse en una base de datos, es precisa una reconversión y, ocasionalmente, una modificación manual del formato. Y, lo que es peor, esto debe repetirse cada vez que se modifica la información.

Contenidos dinámicos: los ficheros creados ahora con html no permiten renovar el aspecto de una página web (atributos como el color, las imágenes de fondo o las propiedades y el tamaño de los tipos de letra) sin cargar una nueva página o invocar programas Java.

Orientación a objetos: los actuales identificadores html no se corresponden con ningún modelo de objeto que permita que una parte de la página web pueda tratarse como un objeto.

Las búsquedas sobre html proporcionan demasiados resultados: uno de los valores añadidos de la WWW se lo dan los buscadores, que permiten encontrar prácticamente todo lo relacionado con la consulta que han planteado. El problema es que la información disponible en la WWW ha crecido desmesuradamente, y por lo tanto la que los buscadores recuperan es tan extensa que se hace inmanejable.

Los usuarios que buscan información deben elegir entre consultas tan concretas que se arriesgan a perder información relevante, y otras tan generales que producen siempre demasiados resultados como para ser útiles.

La razón por la que los buscadores devuelven tantos resultados es que los términos de la consulta son buscados (tradicionalmente) en todo el contenido de cada página. En la actualidad esta situación ha mejorado mucho: ningún buscador procesa ya cada página al 100% (sería una locura), y muchos posibilitan una delimitación por marcas análoga a las búsquedas por campos en las consultas bibliográficas tradicionales; además se da un auge muy importante de todo tipo de metadatos.

Sin embargo la búsqueda/recuperación de información en la WWW podría mejorar si se proporcionara elementos de contenido específico. Por ejemplo, la palabra enlace podría etiquetarse como nombre o término químico. A partir de ahí las búsquedas por dicha palabra podrían limitarse a un dominio específico.

Especificaciones siempre cambiantes: del html 2.0 al 3.2, al 4.0, al ???

Puesto que el html es una norma en desarrollo, sus posibilidades están siendo aumentadas continuamente mediante la introducción de nuevas etiquetas. Para las organizaciones que mantienen grandes cantidades de datos en este formato, cada nueva especificación supone revisar y volver a etiquetar toda su información. Esto no significa que las diferentes versiones de html sean incompatibles, sino que si una organización quiere mantener su información actualizada se ve obligada a "retocar" constantemente el formato de su información de acuerdo a las últimas especificaciones.

Para evitar este problema muchas organizaciones editan su información en sgml y luego la convierten en html (eso sí, perdiendo un enorme porcentaje de "inteligencia de la información" en el proceso).

¿Por qué no se aplica el sgml?

Las ventajas de sgml son obvias: posibilidades sin fin para expresar información (conjunto de etiquetas ilimitado); los documentos sgml se escriben una vez y se reutilizan tantas veces como se quiera; multiplataforma y con gran proyección de futuro; integridad y exactitud comprobadas. Pero también tiene importantes limitaciones:

  • Ningún navegador web de los más difundidos puede visualizarlo. Ni Iexplorer de Microsoft ni Netscape contienen ningún soporte para sgml. Precisamente lo que hace tan valioso a este lenguaje es la causa de su mínima difusión: ofrece tantas posibilidades que el software para editarlo o leerlo es sumamente sofisticado. Para citar algunos ejemplos de browsers: Panorama o Dina. Incluso las principales compañías fabricantes de herramientas (p. ej., Arbortext) no soportan el 100% de las posibilidades que permite la norma.

Mientras sólo exista soporte para html, las grandes compañías que necesitan gestionar sus datos en sgml aplicarán sencillamente programas de conversión sgml-html para hacerse visibles en la WWW (aunque con la conversión su información pierda prácticamente toda la estructura y por lo tanto mucho valor). Salvando las distancias es más o menos como convertir un fichero CAD en un fichero .gif.

Sgml no normaliza los estilos de presentación. En efecto, sgml sólo normaliza la estructura. Ha habido algunos intentos para desarrollar una especificación para estilos Dsssl (document style semantics and specification language) pero ninguno de ellos ha tenido respaldo por parte de la industria.

¿Por qué es posible el XML?, ¿qué aporta al concepto de hipertexto?

Como ya se comentó anteriormente, XML es una versión reducida del sgml que fue desarrollada para dotar a la WWW con las posibilidades de éste. En realidad, XML trata de solucionar los problemas de sgml sin perder sus cualidades, o, en otras palabras hacer de sgml un producto más comercial que pueda difundirse.

Diferencias entre sgml y XML:

-XML no requiere DTD (document type definition). Para procesar datos, una aplicación sgml necesita los datos y la DTD. XML tiene punteros a la estructura de los datos.

Esto redunda en un ahorro de tiempo y también simplifica el desarrollo del software de aplicación, que no tendrá que tener en cuenta las DTDs.

-XML requiere documentos "bien formados". En un documento XML siempre se necesitará una etiqueta de principio para cada elemento y su correspondiente etiqueta de final. Los elementos estarán anidados pero perfectamente delimitados y especificados por sus etiquetas.

-Excepciones: XML carece de soporte para excepciones, es decir, una etiqueta determinada siempre realizará la misma función.

-Modelos de contenido AND. XML no tiene soporte para estos modelos. No se pueden enumerar los componentes de un elemento en cualquier orden. Hay un orden preestablecido. Por ejemplo la etiqueta que define el elemento título: <title> </title> deberá presentar sus componentes: subtítulo, autor, etc., en un orden no aleatorio.

-Entidades internas Sdata. Si se tiene información específica, como símbolos matemáticos, etc., sgml permite definirlos con las entidades internas Sdata. XML no ofrece esta posibilidad.

XSL y XLL. Especificaciones XML para el formato y los enlaces

Para compensar estas limitaciones respecto a sgml, el XML ofrece:

Difusión: parece muy probable que este nuevo estándar se extiende muy rápidamente y que tarde o temprano sustituya al html. Los navegadores XML y editores son mucho más fáciles de utilizar que los de sgml (Microsoft está apostando por XML con su Iexplorer 5.0). El código XML es mucho más reducido y menos complejo que el del sgml.

Automatización: los webs diseñados con XML serán bastante fáciles de automatizar.

Búsqueda/recuperación de información: mucho más eficaz y rápida.

Intercambio de información.

Protección frente a los cambios de los browsers: porque, en lugar de añadir las etiquetas de presentación al documento, se remitirá a una hoja de estilo de ese documento -realizada en XSL (Extensible style language)-. Esta independencia de la presentación permite al diseñador estructurar la información solamente una vez, y cada vez que aparezca una versión diferente del navegador con nuevas posibilidades de presentación habrá que revisar sólo la correspondiente hoja de estilo y no el documento completo.

Antes de terminar este apartado deseamos mencionar a Arbortext, empresa que produce un editor comercial de XML (además de todo tipo de software orientado a XML); su producto se llama Adept 7 y soporta XML y sgml. También hay un programa shareware llamado Xmlstyler en:

http://www.arbortext.com

Especificación XLL de XML. ¿Qué implica para el nuevo concepto de hipertexto?

La WWW es el ejemplo más grande de hipermedia activa. Proporciona una forma de enlace única y utilizada por todos sus usuarios: el elemento <a> o anchor (ancla). Este tipo de enlace es unidireccional y (éste es un principio básico de diseño de la web), básicamente no especifica nada de la página a la que apunta excepto su localización. Los enlaces no implican la redacción o representación de información más allá del texto que puede encontrarse entre las etiquetas <a> y </a>.

Los enlaces web tienen varios "comportamientos" según el diseño del URL (http, file, ftp, mailto, search) y el navegador en el que se lean. Los comportamientos posibles son:

  • buscar y mostrar,
  • buscar y guardar,
  • mandar correo-e.

Además del html hay algunas otras normas que también utilizan enlaces. Las más conocidas han sido tradicionalmente HyTime (Hypermedia time based structuring language, ISO-10744) -parte de la TEI (Text encoding initiative)- y el proyecto llamado URN (Uniform resource names) del Ietf (Internet engineering task force).

El lenguaje de enlaces extensible (XLL) soportará los enlaces simples como existen en la web actual, pero también implementará los enlaces extendidos. Entre estos enlaces se incluyen los indirectos, que pueden poner fin a los enlaces a ninguna parte, y el conector "|", que provoca que sólo se recupere del servidor la parte pertinente de un elemento.

Un auténtico sistema hipertexto como el que pretende definir XML soportará todos los mecanismos clásicos de enlace hipertextual que implementaban los primeros hipertextos y que en parte se perdieron con el auge de html:

  • denominación independiente de la ubicación
  • enlaces bidireccionales
  • enlaces que puedan especificarse y gestionarse desde fuera de los documentos a los que se apliquen
  • hiperenlaces múltiples: anillos, múltiples ventanas, etc.
  • enlaces agrupados: múltiples orígenes
  • transclusión: el documento destino al que apunta el enlace aparece como parte integrante del documento origen del enlace. Transclusión es otro termino acuñado por Ted Nelson combinando las palabras transferir e inclusión. Describe la forma en que una parte de un documento en cualquier lugar del "docuverso" puede ser citada en un nuevo documento sin ser copiada, sino apuntando al texto original. De esta forma cada cosa sólo tendría que escribirse una vez.
  • Atributos en los enlaces: tipos de enlaces.

Estos objetivos pretenden alcanzarse por medio de XLL, que en estos momentos se encuentra en desarrollo, del mismo modo que su especificación marco XML.

Los puntos más relevantes de XLL son:

  • Se beneficia de estándares previos: Hytime y TEI. XLL va a ser diseñado para aprovechar los logros conseguidos por especificaciones anteriores muy interesantes pero con muy poca difusión comercial como Hytime y TEI. XLL es esencialmente un subconjunto de HyTime.
  • Compatibilidad con el actual sistema de enlaces mediante URLs. XLL soportará íntegramente este sistema, es decir el formato actual de html en cuanto a enlaces.
  • Enlaces bidireccionales. Permitirá a los usuarios activar un enlace desde cualquiera de las partes seleccionadas.
  • Localización de información muy específica con total precisión, ya que ésta está organizada jerárquicamente dentro de los documentos XML.
  • Enlaces indirectos. Mejorará enormemente el mantenimiento de las grandes colecciones de documentos web. Actualmente, si un recurso cambia su localización, esto es, su URL, todos los documentos cuyos enlaces apuntan a ese recurso deben actualizarse. Para webs complejos, esta actualización puede resultar una pesadilla con altos costes y usuarios insatisfechos.

La solución que se aplica actualmente es tan simple como dejar pequeñas páginas html en la antigua dirección con un enlace apuntando a la nueva. Sin embargo parece mucho más razonable la solución XLL de los enlaces indirectos. Con XLL los enlaces se dan a través de un archivo de enlaces separado e independiente del documento XML. Cuando la localización de un recurso cambia, sólo los ficheros intermediarios tienen que cambiarse. El documento XML y el recurso al cual apuntan sus enlaces permanecen intactos.

Vemos aquí la misma intención de modularidad que presenta también la especificación XSL de XML.

El sistema de enlaces XLL

Esta especificación define un conjunto de parámetros que se utilizarán en los enlaces entre documentos XML. Debido a la estructura que el estándar XML proporciona a los documentos, los enlaces permitirán un número mucho mayor de posibilidades y prestarán una base tecnológica muy amplia para desarrollar el concepto de hipertexto/hipermedia.

Un enlace se entiende como la relación existente entre dos o más objetos (lexias, pedazos de información) o entre dos o más subobjetos.

La especificación XLL proporciona una estructura compacta y eficiente para representar enlaces que pueden estar dentro o fuera de los documentos, o tener diferentes tipos de localizadores de recursos (incluidos los URL), o ser enlaces indirectos, o apuntar específicamente a determinada información dentro de documentos XML o sgml.

XLL define el formato de los enlaces teniendo en cuenta unos cuantos ejes de actuación básicos:

  1. Relaciones de los enlaces: pueden expresar distintas relaciones entre las unidades de información, lexias, nodos, etc.
  2. Topología de los enlaces: los in-line y out-of-line difieren en su estructura del mismo modo que lo hacen los enlaces que involucran a distintos tipos de recursos.
  3. Sintaxis del localizador: hay muchos tipos de especificaciones. Por ejemplo: los URLs, las consultas en SQL, los nombres de ficheros, etc.
  4. Presentación: pueden presentarse de muchas formas. El formato de un enlace está íntimamente ligado a su comportamiento.
  5. Comportamiento: cuando se activa un enlace éste puede actuar de formas muy diversas como abriendo, cerrando o desplazando una ventana o un cuadro de diálogo; visualizando los datos de distintos recursos de forma diferente; probando y autentificando al usuario y la información relativa a él; ejecutando cualquier programa; etc.

    El comportamiento de un enlace se especifica semánticamente según el tipo de enlace, el papel que desempeñan los recursos, las circunstancias de uso y otros factores, del mismo modo que la presentación de un elemento está determinada por una hoja de estilo que se basa en el tipo de elemento, contexto, etc.

    La existencia de un enlace viene dada por un elemento de enlace que debe poder ser reconocido con fiabilidad por un software para que éste pueda visualizar y comportarse de la forma predefinida. Los elementos de enlace XML se reconocen porque todos usan el atributo designado llamado xml-link. Los valores posibles para este atributo son: simple, extended, locator, group y document. En cada caso se señala que el elemento en cuya etiqueta inicial aparece el atributo debe ser tratado como un elemento del tipo indicado.

    Un ejemplo de link XML simple sería:

    <a xml-link="simple" href="http://www.w3.org/">El W3 Consortium </a>

    Hay muchos atributos que pueden adosarse a un elemento de enlace. Cada uno tiene un nombre y un comportamiento. Por ejemplo: role, href, title, show, in-line, content-role, content-title, actuate, behavior, steps.

    Existen dos formas de asociar estos atributos con el elemento de enlace XML. La más simple es declarar explícitamente esta asociación (es decir, escribir todo en el enlace). Sin embargo esto sería muy trabajoso. La otra aprovecha la capacidad de XML para declarar valores por defecto de los atributos.

  6. Información asociada con los enlaces
    • role: cada enlace debe tener una cadena de texto usada para que el programa de aplicación identifique el propósito del enlace. Este atributo sirve tanto para el elemento de enlace como para el recurso.
    • recurso: el localizador debe siempre identificar un recurso de algún modo. Esto se hace usando el atributo href.
    • title: el localizador puede asociarse con un título de cara al usuario.
    • comportamiento: los atributos show y actuate pueden ser usados por el autor para diseñar diferentes formas generales de activación de un enlace. El atributo behavior se emplea para dar instrucciones más detalladas.
    • in/out-of-line: in-line se usa para comunicar si el elemento de enlace es in-line o no.
  7. Elementos de enlace

En la especificación XML hay dos tipos fundamentales de enlaces. El primero un enlace simple, generalmente in-line y siempre unidireccional, muy parecido al elemento <a> del html. El segundo, un enlace extendido, mucho más general, que puede usarse in-line y out-of-line, en enlaces multidireccionales, enlaces de sólo lectura de datos, etc. Dada la importancia que la especificación otorga a este punto, vamos a centrarnos, por último, en él.

Elementos de enlace

Existen dos tipos:

  1. Enlaces simples: son muy parecidos a los enlaces <a> de html, pero con posibilidades de referencia más generales. Un enlace simple puede contener solamente un localizador, y por eso no son necesarios elementos hijos:

    <a xml-link="simple" href="http://www.w3.org/">(Los pares de etiquetas contenidos entre el par que define el elemento de enlace, son conocidos como elementos hijos).</a>
  2. Enlaces extendidos: pueden implicar a cualquier número de recursos y subrecursos. Se espera de una aplicación que pueda activarse desde todos ellos. La clave con los enlaces extendidos es cómo manejarlos y localizarlos, puesto que no necesariamente tienen que hallarse en los documentos-recurso a que hacen referencia y a menudo se encuentran en documentos completamente separados.

    Los localizadores de un elemento de enlace extendido están en elementos hijo del elemento de enlace principal.

    Cada uno de los elementos dispone de su propio conjunto de atributos, con valores diferentes. Muchos de los atributos pueden aparecer en los elementos hijos y en el padre (elemento de enlace), si no se especifican los valores de los atributos para los hijos, los valores del padre servirán por defecto.
    1. Enlaces in-line y out-of-line: el primero de ellos puede adoptar los valores true (todo el contenido del elemento de enlace se considera el recurso del enlace) o false.

      Cuando el enlace es in-line los atributos content-role y content-title se requieren para proporcionar el "título" y el "propósito" de ese "contenido" (recurso).
    2. Comportamiento del enlace: el autor de la página puede especificar cómo quiere que se comporte un enlace cuando sea activado. Esto se hace a través de los atributos show y actuate, que proporcionan opciones más o menos generales. Para un control mucho más sofisticado de la activación del enlace existe el atributo behavior, con el que el autor puede dar instrucciones mucho más detalladas de comportamiento.
      • Show: expresa el modo en que se debe visualizar o procesar el contenido del recurso al que apunta el enlace que se está activando. Tres opciones:
        1. embed: el recurso al que apunta el enlace será anidado (para visualizar o procesar) dentro del recurso desde donde se activó el enlace
        2. replace: el recurso al que apunta el enlace reemplazará (para visualizar o procesar) al recurso desde donde se activó el enlace
        3. new: cuando se active el enlace, el recurso designado será visualizado o procesado en un nuevo contexto (p. ej. abriendo un navegador, etc.).
      • Actuate: se usa para expresar el tipo de acción que se va a iniciar cuando la aplicación encuentra el elemento de enlace. Consta de dos valores:
        1. auto: cuando la aplicación encuentra el enlace éste se activa automáticamente
        2. user: el enlace no se activará hasta que no haya una solicitud externa explícita (un click de ratón).
    3. Localización del recurso: el valor de localización de un recurso se da en el atributo href. Se ha adoptado este nombre por cuestiones de compatibilidad con los populares enlaces html.

      Un localizador siempre contiene un URL al que puede seguir un identificador de fragmento (como # en html). En XML estos identificadores de fragmento se conocen como punteros X.

      En la sintaxis de la localización, si el URL aparece explícitamente se refiere a un recurso llamado "recurso contenedor". Si el URL no aparece explícito, se toma como recurso contenedor el documento en el que está alojado el elemento de enlace.

      Si se da el puntero X, el recurso designado es un subrecurso del recurso contenedor; si no hay puntero X el recurso designado es el recurso contenedor. En lugar del puntero X desarrollado se puede asignar un nombre. Si se da este nombre, se está indicando que el subrecurso referido es el elemento del recurso contenedor al que hay asociado un atributo xmlid cuyo valor coincide con el nombre en cuestión.

      Las distintas partes que forman la sintaxis de un localizador (URL, punteros X...) están unidas por conectores que pueden ser de dos tipos: # o |.
      • # indica que el servidor que proporciona el recurso al que se refiere el enlace trata este recurso como un objeto completo, y que el proceso del puntero X para extraer los subrecursos debe ser llevado a cabo en el cliente, es decir, en el sistema que reconoce y procesa el elemento de enlace.
      • | indica que el servidor de ese recurso no lo trata de una forma particular. Ejemplo:

        href :: = URL | (puntero X | nombre)
      • Punteros extendidos: punteros X: los punteros X operan de una forma directa en el árbol del elemento (los elementos en los que se dividen los documentos XML pueden ser tratados como árboles que albergan subelementos padres, hijos, etc.).

        Básicamente la forma de un puntero X consiste en una serie de términos de localización, cada uno de los cuales identifica una ubicación que puede ser absoluta o relativa. Estos términos tienen una palabra clave como id, child, ancestor, etc., y pueden ser calificados por parámetros como número de ocurrencia (del elemento referenciado), tipo de elemento o atributo. Por ejemplo, la sintaxis de un localizador podría ser:

        Child (3, Chap )5 (, SEC) (1)

        Lo cual se referiría al primer hijo (subelemento) de la quinta sección dentro del tercer capítulo del documento referenciado. (hay que señalar que los elementos los define el autor del documento, y pueden ser capítulos, párrafos, etc.).

        Los parámetros deben estar separados por comas, para facilitar su inclusión dentro del puntero X y la de éste dentro del URL.

        Un localizador puede presentar uno o dos punteros X; si hay dos aparecen separados por "..", y representan el principio y el final del intervalo que constituye el recurso referenciado. Es decir, el recurso designado de este modo comprende todo el texto entre esos dos punteros. Si sólo aparece un puntero en el localizador, el recurso designado es el elemento o ubicación especificado mediante la secuencia de términos localizadores de ese puntero.
      • Estructura de los punteros X: hay que resaltar que esta especificación XLL no prevé los tipos de aplicaciones que se pueden realizar sobre ella (que son muchos y muy variados, por ejemplo a la hora de visualizar o gestionar un recurso especificado mediante un puntero X) sino que se limita a proporcionar un mecanismo básico que pretende convertirse en un estándar.

        Un término localizador es una unidad atómica de información sobre una ubicación; un puntero X consiste en una combinación de términos localizadores. Estos términos localizadores se dividen en términos absolutos, términos relativos y términos de emparejamiento de caracteres. Los términos absolutos apuntan a uno o más elementos o ubicaciones (concretas) dentro de un documento XML. Si un puntero X contiene solamente un término absoluto, éste identifica el recurso designado. Si al término absoluto le sigue algún término relativo o de emparejamiento de caracteres, los elementos o ubicaciones designadas se consideran recursos de localización y sirven como punto de partida para las operaciones de los siguientes términos de localización.
      • Términos localizadores absolutos:

        Root ()

        Here ()

        Ditto ()

        Id (name)

        Html (namevalue)

      • Términos localizadores relativos:

        Child

        Descendant

        Ancestor

        Preceding

        Psibling

        Following

        Fsibling

      • Términos de emparejamiento de caracteres: se proporciona una cadena de caracteres para que sea localizada en la ubicación especificada.

En definitiva XLL aumenta espectacularmente los medios que nos ofrecían los enlaces electrónicos basados en html, y por lo tanto permite suponer que el tipo de hipertexto generado teniendo en cuenta estas nuevas posibilidades será como mínimo algo muy distinto del concepto actual.

Conclusiones

La información sobre la que está basada la WWW en general, y su formato para enlaces hipertextuales en particular, no es inteligente ni está suficientemente estructurada y por lo tanto plantea la necesidad de un cambio de estándar más que reactualizaciones continuas del antiguo.

Por eso parece previsible que XML termine sustituyendo a html como medio (después de un período de "convivencia" más o menos dilatado), en cuanto los browsers más populares lo soporten. Esto aumentará espectacularmente las posibilidades de gestión de información de la WWW.

La idea de hipertexto, tanto en su faceta narrativa como en la  documental (como medio de organización de la información), probablemente se haga más común con el tiempo y sus aplicaciones más manejables y versátiles en detrimento de la textualidad lineal (paralelamente el texto electrónico sustituirá al libro impreso, seguramente debido a una mejora sustancial en las interfaces y al auge de una nueva actitud hacia el medio informático).

Quisiera dejar claro que en este artículo no se está dando por sentada la superioridad de la narrativa hipertextual sobre la convencional sino que se habla simplemente de la transición a un nuevo medio textual en la que estamos inmersos. Los experimentos realizados hasta el momento con hipertextos puros no dan buenos resultados en cuanto a su capacidad narrativa (no tengo constancia de experimentos que analicen su capacidad "documental"); sin embargo estas experiencias se han realizado con sujetos que provienen (inevitablemente) del medio textual convencional, y hay que admitir que esa circunstancia resta objetividad a los resultados.

En cuanto a la inadaptación es algo con lo que tendremos que convivir un largo período de tiempo debido a la tremenda velocidad con la que se producen los avances tanto científicos como tecnológicos. Lo único factible es asumir nuestra inadaptación y aprender a ser más flexibles en nuestras concepciones. Una vez más, como siempre, es el criterio humano el que debe imponerse al medio. Humanizarnos y no mediatizarnos en medio de un enorme caos. ¿Es posible?

Bibliografía

1. Barthes, Roland. "Le degré zéro de l'écriture". En Élements de sémiologie. Paris: Gauthier, 1965.

2. Landow, George P. Hypertext: the convergence of contemporary critical theory and technology. Baltimore: Johns Hopkins, 1990.

3. Bolter, J. David. Writing space: the computer, hypertext, and the history of writing. Hillsdale, N. J.: Erlbaum Associates, 1991.

4. Sterne, Laurence. The life and opinions of Tristram Shandy, gentleman. Oxford; New York: Oxford University Press, 1983.

5. Joyce, James. Ulysses. London: Picador, 1997.

6. Borges, Jorge Luis. Ficciones. Madrid: Alianza, 1974.

7. Barthes, Roland. The semiotic challenge. New York: Hill and Wang, 1988.

8. Kristeva, Julia [et al.]. La traversée des signes. Paris: Éditions du Seuil, 1975.

9. Bush, Vannevar. &q

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1998/julio/xll_e_hipertexto_un_nuevo_desafio_a_nuestra_capacidad_de_adaptacion.html