El profesional de la información


Julio 1995

SmarText: documentos electrónicos con estructuras hipertextuales e índices generados de forma automática

Por Lluís Codina

Smartext es un programa de publicación electrónica que genera hipertextos de un modo parcial o totalmente automático, a partir del tratamiento de ficheros creados con aplicaciones ofimáticas estándar, tales como procesadores de texto u hojas de cálculo.

Un hiperdocumento de SmarText con sus tres secciones, que aquí pueden verse simultáneamente: el documento en sí (Full text), el sumario (Outline) y el índice analítico (Index)

El objetivo de SmarText es proporcionar un documento electrónico en forma de hipertexto que queda listo para su distribución sin recurrir al papel, y que se presenta con una serie de facilidades que permiten navegar por la información, siguiendo de esta manera la vía que inició Acrobat (de la empresa Adobe) en su día y que ha sido seguida también por otros programas como Envoy (de WordPerfect), en la persecución del mítico objetivo, tantas veces anunciado y otras tantas pospuesto, de la oficina sin papeles.

Los hiperdocumentos de SmarText se construyen a partir de la importación de los ficheros creados con otras aplicaciones, que se denominan ficheros fuente. A tal fin, el programa interpreta directamente los formatos de los procesadores de texto más populares del mercado, así como archivos ascii y ansi y archivos gráficos de los formatos más usados. Por ejemplo, SmarText podría aceptar como fichero fuente el conjunto de los ficheros de texto con los que se han escrito los artículos de este número de IWE y generar de una manera completamente automática un hipertexto con su estructura de enlaces hipertextuales (links) y diversos índices de navegación.

El lenguaje de recuperación de SmarText, que permite utilizar operadores booleanos, presenta aquí una lista de términos que, estadísticamente, tienden a co-ocurrir con los términos de búsqueda

Aunque sin alcanzar la fidelidad que consiguen Adobe o Envoy, los documentos SmarText preservan buena parte del aspecto del documento original, particularmente en cuanto a familias de letras, atributos de texto (tales como cursivas o subíndices) y tablas, manteniendo incluso, en algunos casos, las notas al pie y los marcadores de texto (Ami Pro y WordPerfect).

Publicación electrónica

Actualmente, el mejor modo de distribuir documentos electrónicos de una cierta complejidad estructural y/o de un gran volumen es mediante el uso de hipertextos, los cuales no sólo permiten la lectura secuencial de los documentos al igual que sus homólogos de papel, sino que permiten otras formas de navegación por la información mucho más interactivas.

Recordemos que en un hipertexto la información está organizada en forma de red, en la que los nodos están formados por las secciones del documento o incluso por diferentes documentos. La relación entre nodos se establece mediante enlaces que permiten pasar de un nodo a otro, siguiendo alguna clase de lógica o de unión conceptual entre los nodos.

Por ejemplo, si este número de IWE fuera un hipertexto, el sumario de IWE sería un nodo, al igual que cada uno de los artículos. Cada entrada del sumario sería un punto de activación de un enlace hipertextual, de manera que haciendo clic (hacer clic es un verbo de reciente creación que significa, literalmente, situar el cursor sobre una zona determinada de la pantalla y presionar uno de los botones del ratón con el fin de activar algún mandato) sobre una entrada, aparecería en pantalla el artículo correspondiente. El artículo en sí podría tener enlaces a otros artículos, de este mismo número o de números anteriores que trataran temas semejantes, en lugar de las notas tipo ver IWE n. tal, etc.

Ahora bien, con los programas de hipertextos habituales, crear las estructuras de navegación, como el sumario, y crear los enlaces entre nodos, como los enlaces entre sumario y artículos, o entre artículo y artículo, es una operación que consume una gran cantidad de tiempo.

En este sentido, y a diferencia de los demás programas del mercado, SmarText automatiza, si se dan ciertas condiciones en los ficheros fuente, estas tareas que tanto tiempo consumen en la creación del hipertexto: a saber, el establecimiento de los enlaces entre los nodos del documento (o entre documentos) y la creación de algunas estructuras de navegación básicas, tales como tablas de contenido y sumarios.

Estructura general

Un hiperdocumento SmarText comprende tres secciones principales, cada una de las cuales está ubicada en una ventana independiente, y un sistema documental completo de recuperación de información.

Las secciones del hiperdocumento son: el texto (text window), que contiene el documento en sí; el índice analítico (index window), que es una lista ordenada alfabéticamente de todos los conceptos importantes mencionados en el documento, y el sumario (outline window), que es una representación de la estructura y/o de las distintas secciones que componen el hiperdocumento. La unidad de trabajo de SmarText es el párrafo, es decir, cualquier cantidad de texto situada entre retornos (o intros) manuales.

Por ejemplo, haciendo clic sobre cualquier entrada del índice o del sumario se accede al párrafo o sección correspondiente del documento, y en el propio cuerpo del documento existen también enlaces entre párrafos del documento.

Las entradas del índice analítico pueden mostrar el contexto de cada término con un clic de ratón. El editor del índice permite definir sinónimos, en este caso "Hipertextos" como sinónimo de "Hiperdocumentos"

El sistema de recuperación de información, por su parte, incluye la posibilidad de efectuar búsquedas simples o complejas mediante un lenguaje de interrogación que utiliza operadores booleanos y de proximidad, y que además permite el uso de diccionario de sinónimos.

Optativamente, el sistema de recuperación proporciona un algoritmo que sugiere términos de búsqueda al usuario, estimando las palabras que tienden a co-ocurrir con las que aquél propone. Este sistema de recuperación se completa con la denominada bookcase, que sirve para organizar documentos en una librería virtual que contiene estanterías (bookshelf) y documentos, en las que cada uno de éstos está representado por un icono y un título. Desde la estantería o bookcase, SmarText puede realizar búsquedas simultáneas en varios o en todos los documentos de la estantería.

Creación automática de enlaces

La ventana de texto, la sección principal del hiperdocumento, contiene el documento en sí, el cual puede incluir tablas, ilustraciones, notas de autor (document notes, no modificables por el lector), notas de lector (notes, que sí puede modificar el lector), y los enlaces entre los nodos.

Los nodos pueden estar en el mismo o en otro documento, y pueden consistir en texto, en imágenes o en la activación de otra aplicación. Las enlaces entre tales nodos pueden establecerse, una a una, como en cualquier sistema de hipertextos convencional, o puede crearlas el programa automáticamente.

En este último caso, SmarText analiza cuántas veces aparece un término (palabra o frase) en todo el documento, y cuando su número se sitúa en un rango óptimo (ni demasiadas ni pocas veces), lo selecciona como candidato a término de enlace (term link). Después, selecciona como destino los párrafos que más veces contienen el término, y que actúan así como lugares de destino común de las distintas ocurrencias de la palabra presente en el resto del documento. Si SmarText no es capaz de determinar un párrafo como destino privilegiado, entonces todos los párrafos que contienen el término quedan ligados entre sí,

Este procedimiento de establecimiento de enlaces puede parecer rudimentario, comparado con el ejercicio cognitivo que supone establecerlas intelectualmente, pero lo cierto es que algunas veces, aunque dependiendo del tipo de documento, el método proporciona resultados significativos, como atestiguan diversas pruebas realizadas con este programa en el Área de documentación de la Universidad Pompeu Fabra.

Naturalmente, también en muchas ocasiones las enlaces carecen de sentido, pero lo importante es que el autor del hiperdocumento siempre puede refinarlas gracias a su sistema de edición de enlaces, o incluso puede renunciar a establecer enlaces de un modo automático y hacerlo en forma asistida, indicando al programa cuáles son los términos relevantes con los que SmarText debe establecer enlaces entre párrafos.

Estructuras de navegación

Las otras dos secciones principales de un hiperdocumento SmarText son las del índice analítico y la del sumario de contenidos. La primera funciona como el conocido índice analítico de los libros en papel, y consiste por tanto en la lista ordenada de todos los conceptos significativos mencionados en el documento, expresados bien mediante palabras (por ejemplo, Informática) o mediante frases (por ejemplo, Publicación electrónica).

Bajo cada entrada del índice, SmarText lista la primera línea de cada uno de los párrafos que contienen la palabra o frase que forman la entrada del índice y, naturalmente, existe una enlace que lleva directamente desde esa línea a la zona del documento que la contiene. Estas líneas de contexto pueden desplegarse o pueden quedar ocultas para facilitar la exploración del índice.

Lo mejor de esta sección es que las entradas del índice pueden editarse, de manera que aparezca como tal entrada una palabra distinta de la que figura en el texto. Por ejemplo, el autor del hipertexto puede indicar que la entrada del índice sea <Publicación electrónica>, aunque el documento no contenga esa frase, y que conduzca a todas las zonas del documento donde se mencionan los términos Edición electrónica, Libros electrónicos, Documentos digitales, etc.

Estas entradas se comportan, de hecho, como auténticas macro-instrucciones de búsqueda, transparentes al lector, por lo cual una entrada puede tener asociada una ecuación completa de interrogación que combine términos, operadores booleanos y sinónimos. Por ejemplo, la entrada <Publicación electrónica> puede contener una macro anidada que lance la siguiente ecuación de recuperación : [(Publicación AND Electrónica) OR (Edición AND Electrónica) OR (Electronic AND Publishing)]. El resultado será que, cuando el usuario pinche con el ratón la entrada <Publicación electrónica>, SmarText le mostrará todas las zonas del documento que satisfacen la ecuación anterior. Además, cada entrada del índice acepta sinónimos, que debe declarar el usuario, y que lista bajo la forma: Véase también... (See also...).

El índice analítico de SmarText proporciona al lector una representación muy eficaz del contenido del documento, porque permite implementar una navegación conceptual, es decir, que no dependa de las palabras exactas que haya utilizado el autor del documento original, aunque esto último no puede hacerlo SmarText, sino que es una labor del autor del hiperdocumento.

Propiedades estadísticas

Ahora bien, ¿qué palabras o frases forman parte del índice cuando se realiza de modo automático? SmarText calcula la frecuencia estadística de cada palabra en el total del hiperdocumento (un solo documento SmarText puede estar formado por hasta 3.500 documentos fuente), y aquellas que se sitúan entre ciertos límites inferiores y superiores de una curva de distribución de frecuencias se eligen como entradas del índice.

La idea subyacente, bien documentada desde hace años en la bibliografía científica sobre recuperación de información, es que los términos muy frecuentes no son útiles como entradas de índice porque no discriminan con eficacia las secciones del documento, además de que producen como entradas palabras vacías de contenido, tales como artículos o preposiciones. Los muy poco frecuentes, por su parte, suelen ser términos tan exóticos que sólo son aplicables a situaciones muy particulares y tampoco suelen aportar buenas entradas. En todo caso, los límites que marcan la amplitud del rango pueden ser modificados por el usuario, quien puede comprobar dónde conviene situar en cada caso los umbrales inferior y superior. Además, el autor del hiperdocumento puede crear una lista de descriptores (keywords), los cuales serán tomados por SmarText como entradas incondicionales del índice, o incluso tomarlos como las únicas entradas permitidas. También puede utilizar, como pistas de entradas idóneas, otros índices creados con otros documentos. El autor del hiperdocumento puede posteriormente editar las entradas del índice.

Buscando pistas

El sumario o tabla de contenidos (outline) de SmarText equivale al sumario clásico de una publicación, y la misma función proporciona esta sección en un hiperdocumento SmarText, ya que contiene los títulos de las zonas y secciones significativas del documento, pudiendo tener varios niveles anidados, que pueden desplegarse o replegarse. Como siempre, su activación con el ratón lleva directamente a la sección o zona del documento correspondiente.

SmarText también puede construir este sumario o tabla de contenidos de modo automático, cosa que hace de una forma sorprendentemente eficaz y, al mismo tiempo, sorprendentemente simple, utilizando, como en el caso anterior, determinadas pistas que encuentra en la estructura misma del documento fuente.

La más simple y la más eficiente, aunque no siempre es posible aplicarla a todos los documentos, es la que rastrea el documento buscando líneas de texto que incluyan números al comienzo de la primera línea y/o que están precedidas y seguidas con un retorno manual de carro. ¿Reconocen de qué estoy hablando? Por supuesto, de los típicos encabezados (también llamados ladillos en el lenguaje periodístico) de secciones que suelen hallarse en muchos informes o, por ejemplo, en muchos artículos de revista.

Es decir, si tomamos los encabezados de un informe bien estructurado, y los situamos siguiendo el orden lógico según el cual el encabezado 1.1., irá debajo del 1., o el 2.2.2., debajo del 2.2, etc., tendremos automáticamente una tabla de contenidos. ¿Que el autor del documento original no enumeró los encabezados? Ningún problema. SmarText reconoce encabezados siempre que encuentra una o varias líneas de texto precedida y/o seguida de retornos de carro manual y que presenta características tipográficas diferentes del texto que sigue a continuación.

SmarText proporciona en realidad varios modos de construir automáticamente el sumario del documento, entre ellos uno que consiste en detectar estilos de párrafos (particularmente en documentos fuente creados con Word y Ami Pro), marcadores (bookmarks); otro que reconoce texto marcado como tabla de contenido (una función de los procesadores de texto), y aun otros modos que sería realmente prolijo describir aquí, pero lo importante es que, como cada uno de ellos es apropiado para un tipo de fichero distinto, SmarText permite aplicar a cada fichero fuente de los que forman el hiperdocumento el método más apropiado.

En conclusión, SmarText es un programa que hace honor a su nombre y que es capaz de generar las estructuras de navegación básicas de un hipertexto de un modo total o parcialmente automático. Si no podemos invertir mucho tiempo en generar un documento electrónico, pero tampoco podemos prescindir de unas estructuras mínimas de navegación, la tecnología de SmarText no tiene rival en el mercado en este momento.

SmarText representa el primer intento comercial serio de renovar a fondo la tecnología de los hipertextos y representa también uno de los esfuerzos de ingeniería documental (literalmente: de ingenio aplicado a la documentación) más interesantes y prometedores de los últimos años. Sería altamente deseable que SmarText sirviera para abrir nuevas vías en la concepción de los programas documentales del futuro, porque su forma de encarar algunos problemas típicos de la gestión de información no estructurada es realmente ejemplar.

Lluís Codina. Universidad Pompeu Fabra de Barcelona.

codina_lluis ARROBA fcsc.upf.es

SmarText 3.0 para Windows

Lotus Ibérica, Av. Diagonal 615. 08028 Barcelona.

Tel: +34-3-419 01 04; fax: 419 04 60

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1995/julio/smartext_documentos_electrnicos_con_estructuras_hipertextuales_e_ndices_generados_de_forma_automtica.html