Diciembre 1996
Sobre la Internet de papel, la indización y la publicación en lengua inglesa
Por Lluís Codina
Durante 1996 se ha producido tal explosión editorial alrededor del tema de Internet que, de momento, su popularidad no sólo no nos acerca más a un futuro sin papeles sino que amenaza con provocar una severa deforestación si no se toma alguna clase de medidas compensatorias. En particular, las editoriales del área cultural-geográfica anglosajona están mostrando una vitalidad que, probablemente, no tiene rival en todo el mundo en este momento.
Sea como fuere, presentaremos aquí algunos de los títulos publicados en el 96 que nos han parecido más interesantes sobre Internet, más un título dedicado a los lenguajes documentales o, como dice Mª Luz Terrada en lo que me parece un magnífico hallazgo terminológico, a la "semántica documental".
No pretendemos que los libros comentados aquí sean los más interesantes de todos los que se han publicado sobre Internet, sino que por lo menos son los más interesantes de cuantos han llegado a nuestras manos, que han sido bastantes, por cierto.
Por último, además del factor azar ya mencionado y de la inevitable subjetividad de este autor, en esta selección ha jugado también un papel importante la preferencia por obras de sesgo tecno-científico dedicadas a Internet (con la excepción del último título).
En concreto, la selección se ha realizado pensando en qué títulos deberían formar parte de la biblioteca básica de un internauta profesional, o de un documentalista involucrado profesionalmente en Internet. Dejamos para otra ocasión una selección de títulos dedicados preferentemente a los aspectos culturales y las implicaciones sociales de la Red.
Para acabar, se reseñará brevemente la obra clásica de Lancaster sobre lenguajes documentales, que ha sido recientemente traducida al español. Aunque no tiene nada que ver con Internet a causa de su fecha original de publicación (1972), vale la pena incluirla en esta revisión de títulos, por su dedicación a un tema candente: el análisis y la indización documental.
Introducción a la Red
Francisco Javier García Marco y Jesús Tramullas Saz son dos profesores de documentación de la Universidad de Zaragoza que han escrito una muy recomendable introducción general a la Internet, particularmente al sistema WWW y, encima, le han dado un elegante toque documental.
De ese modo, y a diferencia de los libros sobre Internet al uso, contiene una sugerente reflexión social sobre la información y la sociedad del conocimiento, una Introducción conceptual a los sustratos tecnológicos de la Red, una notable discusión sobre la filosofía de los hipertextos y a la recuperación de información en Internet y una introducción a los aspectos fundamentales del lenguaje html, entre otras cosas.
Para acabar la reseña de este libro, no resisto citar uno de los fragmentos especialmente logrados del mismo:
"¿Por qué es tan importante la información y, por tanto, su transmisión en volúmenes y a velocidades siempre crecientes? En general, la información supone el acortamiento de los procesos de adaptación al ambiente. La certeza relativa o absoluta que proporciona la información elimina la necesidad de realizar múltiples ensayos de aprendizaje y error, y evita resultados negativos que son muchas veces irreversibles".
¿Qué les parece? Difícil una formulación más elegante y concisa de la función de la información que desvele a la vez su naturaleza. La referencia del libro es la siguiente:
Francisco Javier García Marco; Jesús Tramullas Saz. World Wide Web: fundamentos, navegación y lenguajes de la red mundial de información. Madrid: Ra‑ma, 1996, 273 pp.
Isbn: 84-7897-226-9
http://jabato.unizar.es
Búsqueda de información
Sobre la búsqueda de información en Internet, se han publicado en el último año por lo menos tres excelentes libros, cuyas referencias indicaremos más abajo. El primero de ellos (señalado con el número 1 y así sucesivamente) cubre todos los aspectos de la búsqueda de recursos en Internet, desde los clásicos gopher y archie, hasta el WWW, pasando por los Newsgroups, servicios ftp y la localización de direcciones de correo electrónico.
El segundo tiene un perfil muy parecido al anterior, pero parece dirigirse más al público que agradece una mayor profundización conceptual. Aunque también se ocupa de los servicios gopher, veronica, archie e hytelnet, dedica la mayor parte del texto a la búsqueda de información a través de motores de indexación.
El tercero está especializado en la información en torno a la empresa, por lo que puede ser útil a todos aquellos que necesitan buscar información económica, tanto dentro como fuera de Internet.
Publicación digital
El sistema WWW como tecnología básica e Internet como medio de distribución son el paradigma actual de la publicación electrónica. Los títulos que se reseñan en este apartado pueden servir como una buena introducción al tema, con diferentes grados de profundidad, y como manuales de referencia. El primero de los títulos posee aspiraciones enciclopedistas y puede usarse indistintamente como manual y como obra de referencia.
Explica en detalle tanto el lenguaje de descripción de documentos html, como los lenguajes de programación java y CGI (common gateway interface), así como los formatos vrml (realidad virtual) y sgml (sobre este último volveremos más adelante). Además, presenta una buena introducción general a la tecnología WWW.
Aunque se dice que el sgml (standard generalized mark-up language) es un lenguaje, es útil concebirlo también como una gramática que sirve para describir tipos de documentos, cosa que hace mediante la generación de unas estructuras formales denominadas DTD (Document Type Definition).
Una DTD bien construida contiene todas las características estructurales y lógicas de una clase o tipo de documento, expresadas de un modo independiente de cualquier ocurrencia de documento y de cualquier programa o plataforma informática. Ello hace que los documentos creados de modo acorde con una DTD sean totalmente portables, como lo demuestra hasta la saciedad el lenguaje html, que es, técnicamente hablando, una DTD definida mediante la norma sgml.
Esta independencia de las DTD respecto de ordenadores y aplicaciones está también en la base del concepto actual de publicación electrónica a través de Internet, por lo que el conocimiento del sgml es obligado para todo aquel que se plantee la publicación electrónica desde una perspectiva profesional.
Todo lo anterior viene a cuento del segundo de los títulos de este apartado, que analiza los aspectos más abstractos del html recurriendo precisamente al sgml. Este libro gustará, por tanto, a los documentalistas metidos en harinas de programar y, en general, a todos a quienes guste profundizar en la filosofía del html. Tan oportuno enfoque se ve penalizado, sin embargo, por una voluntariosa pero discutible traducción.
El tercer libro de esta sección está dedicado también al sgml, pero en esta ocasión casi en exclusiva al sgml. Está dirigida a profesionales de la edición y del mundo editorial cuyos trabajos necesiten ir más allá de lo que permite el html. Como el anterior, también será útil a todos aquellos que necesiten un conocimiento profundo de la lógica del html, aunque apenas se ocupa de éste último.
El cuarto es un libro que nos baja de las nubes de la abstracción y nos propone un curso de aprendizaje de uno de los mejores editores de páginas web del mercado, Netscape Navigator Gold, del que se da la interesante circunstancia de que es gratuito para estudiantes y, ¡atención!, para organismos sin ánimo de lucro, si no he interpretado mal el aviso de copyright del programa (puede descargarse del servidor de Netscape http://www.netscape.com y en todo caso, es moral y legalmente obligado leer y respetar las condiciones de uso del programa que impongan sus propietarios).
Aunque Navigator Gold es un editor wysiwyg (what you see is what you get, es decir, se puede ir escribiendo y ver cómo quedará en realidad), permite desarrollar páginas con recursos avanzados tales como tablas, formularios y programas CGI o java. En mi opinión, es el editor wysiwyg que soluciona con más elegancia la realización algunas tareas típicas en la creación de documentos html, como el establecimiento de enlaces internos y externos, la inclusión de gráficos, la realización de mapas gráficos y la creación de tablas, entre otros.
El quinto título, por último, es una buena introducción a JavaScript, un lenguaje de muy alto nivel, es decir, muy cercano a las personas y no a la máquina, que permite crear páginas interactivas a programadores y no programadores. La obra está concebida como un curso de autoaprendizaje realizado en siete días, aunque cabe señalar que lo de los siete días es más un reclamo publicitario al estilo del famoso "plan belleza-en-siete-días".
En fin, aunque la obra es excelente y el JavaScript un lenguaje muy sencillo y con muchas posibilidades, que nadie espere poder aprenderlo sin una buena motivación por su parte.
Intranets, ubicaciones y servidores web
Los documentalistas que sitúan su relación con Internet en el lado del servidor disponen también de un nutrido grupo de títulos que les ayudará en su trabajo. Aquí nos referimos a dos de ellos publicados recientemente.
El primero aborda el tema de las intranets desde una perspectiva que combina la aproximación conceptual con capítulos dedicados al análisis de las aplicaciones concretas que pueden encontrarse en el mercado, destacando por la actualizada información que proporciona.
El segundo presenta una aproximación más pragmática y está dedicado al tema de los servidores en general, por lo que puede resultar de utilidad a todo administrador de una ubicación web, se trate o no de una intranet. Está orientado a soluciones implantadas sobre microordenadores y estaciones de trabajo con Windows 95 o con Windows NT.
Agentes, arañas y gusanos
Los agentes de software son la última gran novedad del software en general y de Internet en particular. Un agente es un programa que se caracteriza principalmente por su autonomía y por su capacidad de adaptación al entorno. Los agentes deben (deberían) ser capaces de aceptar encargos, de representar los intereses de sus usuarios -quizás podríamos decir de sus patrones - frente a terceros y de ejecutar las tareas necesarias con tal de realizar esos encargos de manera satisfactoria, sin necesidad de que su usuario detalle las acciones.
En la actualidad Internet es uno de los mejores escenarios de prueba de algunos de estos agentes, particularmente los que se dedican a filtrar información, a explorar la red y a gestionar enlaces a ubicaciones web.
Sobre el tema se han publicado dos excelentes libros.
El primero realiza un enfoque muy general sobre los agentes y robots, aunque reserva tres capítulos a agentes dedicados al filtrado y recuperación de información.
El segundo, aunque también se ocupa de los agentes en general, se centra más en tres categorías concretas: los que exploran e indizan Internet; los dedicados a aspectos de seguridad y de transacciones económicas; y los relacionados con el mundo de los virus.
Como ya se ha dicho, ambos son excelentes, pero quizás este segundo esté afectado por el estilo algo críptico de su autor, probablemente como consecuencia de un uso un tanto abusivo de las metáforas de lenguaje. Cabe señalar que este libro está publicado por otra división de Macmillan (New Riders), al igual que lo son también Sams.Net y Que.
Adiós a la indexación
¿Oyen un crujido? Soy yo comiéndome mis propias palabras. La lectura del excelente clásico de Lancaster, dedicado a los lenguajes documentales, y no menos bien traducido por Alejandro de la Cueva, me ha confirmado la oportunidad de pasar a adoptar el término indización en lugar de indexación, que es el que venía utilizando en mis trabajos.
En su momento defendí la utilización de indexación por ser palabra latina y porque, en catalán, uno de mis idiomas de trabajo principales junto con el castellano, índice es índex, al igual que en inglés y francés. Así que la ventaja de usar indexación es que parecía un término compatible con diversos idiomas. El inconveniente es que es el mismo término que usan los informáticos para referirse a la operación de crear índices automáticos, cosa que no tiene nada que ver, en principio, con la operación, a veces intelectual y a veces automática, de identificación de los temas principales de un documento y de asignación de descriptores o palabras clave para representarlo.
La cuestión es que el profesor Alejandro de la Cueva, en su cuidada traducción del trabajo mencionado prefiere indización y, como ya dije en su momento que no tenía inconveniente en cambiar de término si ello facilitaba la comunicación con mis colegas, pues aquí está el cambio.
Pasemos a comentar ahora el título de Wilfrid Frederick Lancaster.
N. de la R.: El anterior es el nombre completo y correcto del famoso profesor gurú de la Documentación, al cual IWE consultó personalmente; sin embargo parte de su bibliografía aparece con los nombres invertidos, e incluso como Wilfred.
Se trata de la traducción al castellano de la famosa obra publicada originalmente en 1972, que tuvo una revisión en 1985 y una segunda edición en 1992. Se trata de un tratado sobre lo que María Luz Terrada, en el prólogo, llama "semántica documental". La obra de Lancaster es uno de los estudios más rigurosos y de mayor nivel intelectual sobre el uso, concepción y construcción de tesauros y lenguajes de indización.
En general es conceptualmente impecable, aunque, en mi opinión, en las páginas introductorias, ofrece una interpretación confusa de la diferencia entre lenguajes jerárquicos o clasificatorios y lenguajes asociativos o postcoordinados.
En particular, Lancaster opina que la indización basada en la asignación de palabras clave o descriptores es un caso de clasificación. Si bien ello puede ser considerado como cierto bajo ciertas premisas, parece más útil considerar a las clasificaciones y a los sistemas asociativos como métodos bien diferenciados, e incluso opuestos, de representación de la información, como demuestra el muy diferente significado cognitivo de una operación de consulta de una clasificación (en Internet se denominan directorios) y de un sistema de recuperación de información por descriptores o palabras clave.
Ahora bien, incluso en el caso de que este cronista estuviera en lo cierto, que es mucho suponer, la postura de Lancaster sobre el tema no perjudica en absoluto al conjunto de la obra, consagrada en su totalidad al estudio de los lenguajes asociativos y, como ya he dicho, de una gran altura intelectual y exquisitamente escrita. Su lectura resultará, sin duda, un placer para los estudiosos del tema.
En este sentido, y en contra de lo que sostienen actualmente la mayor parte de los autores y teóricos de la recuperación de información (no me importa estar en minoría, aunque, a este paso, voy camino de convertirme en un experto en rectificaciones) entiendo que el estudio de los tesauros y los lenguajes asociativos puede beneficiar enormemente el desarrollo de los futuros sistemas de indización automática.
Entiendo con la profesora Mª Luz Terrada que el estudio de la semántica documental debería ser uno de los pilares más sólidos de la teoría de recuperación de información y, por tanto, del diseño de sistemas eficientes de bases de datos documentales. Tal vez una forma de superar la limitación de los sistemas de indización automática basados en propiedades estadísticas sería la de incorporar tesauros en los motores de indización, los cuales podrían actuar como auténticas bases de conocimiento, o redes semánticas, para mejorar la asignación automática de descriptores tanto a documentos como a preguntas.
Estoy pensando en una posible arquitectura a tres bandas compuesta por los siguientes elementos:
Algunas versiones de la arquitectura anterior ya existen en algunos sistemas, por lo que ya sé que no soy demasiado original, pero esas arquitecturas, que yo sepa, o bien carecen del elemento 2, aunque tienen el 3, o bien tienen el 2 pero no el 3 (agradeceré a los lectores de esta revista cualquier contribución sobre este esbozo de arquitectura, y me ofrezco a intercambiar ideas e informaciones con los interesados en el tema).
Por último, un comentario sobre prólogo ya mencionado de la profesora Terrada. La citada autora ha realizado una presentación eficaz y sumamente interesante sobre el valor científico de la obra de Lancaster y la naturaleza de la Documentación como disciplina académica. En cambio, su introducción se vuelve, en mi opinión particular, innecesariamente agresiva cuando acusa a quienes se dedican (nos dedicamos) a las nuevas tecnologías de cosas tales como ser "víctimas de la publicidad consumista" y de tener un escaso "nivel conceptual y ético" (sic). Sorprendente.
Naturalmente, y pese a mi desconcierto respecto a esta parte de su prólogo, recomiendo su lectura. Mª Luz Terrada tiene muchas ideas, escribe bien y ha redactado una presentación muy breve pero densa.
La referencia:
Frederick W. Lancaster. El control del vocabulario en la recuperación de información. Traducción de Alejandro de la Cueva; presentación de María Luz Terrada. València: Universidad de València, 1995, 286 pp.
Por cierto, el uso de ese "¿oyen un crujido, etc.?" es un plagio descarado de un editorial que leí hace tiempo en alguna revista inglesa. Desde entonces, y como sucede con cierto diálogo de una película de Bogart, estuve esperando tener un motivo para usarlo. Ya lo he encontrado. Ahora sólo me falta una oportunidad para decir aquello de "Si me necesitas, silba. ¿Sabes cómo se hace? Se juntan las labios y se sopla".
A propósito de la edición en papel
Volviendo a aspectos más mundanos, ante un panorama editorial del que los libros reseñados solamente son una pequeña muestra, y ante la visión de las librerías especializadas en informática, donde en las mesas y expositores predomina de modo aplastante el libro inglés, quizás nuestra industria debería estudiar muy a fondo cómo producen sus libros esas editoriales.
Debería ser objeto de viajes de estudio ver cómo pueden poner en el mercado, en cuestión de meses, libros cercanos a las mil páginas, realizados por equipos compuestos por una decena larga de colaboradores, sobre temas absolutamente candentes.
Al mismo tiempo, son capaces de poner sobre la mesa obras exquisitamente editadas, con papel de alta calidad, de excelente tipografía, con buenas ilustraciones, con gráficos y cuadros sinópticos, con un tono general perfectamente conjuntado y unitario pese a las multitudinarias autorías. Por si fuera poco, muchos de estos libros vienen acompañados de sendos cd-roms en los que se pueden encontrar decenas de los mejores programas relacionados con el tema.
Pero eso no es todo. La producción anglosajona de libros se caracteriza por acompañar sus títulos de una serie de instrumentos de ayuda al lector que, en cambio, es difícil encontrar en los títulos producidos en España, como por ejemplo el utilísimo índice analítico.
Últimamente, además, las editoriales en lengua inglesa compiten por ofrecer otros sistemas complementarios de consulta (navegación, diríamos en un contexto digital). Por ejemplo, y para utilizar uno de los títulos anteriores, Web Publishing incluye, además de un excelente índice analítico de 50 páginas, una así llamada Topic reference, en la contracubierta, que organiza todos los capítulos de la obra en torno a 10 facetas principales; una Overview, o visión general de la obra, que condensa en una página y media las nueve partes del libro y, finalmente, un Contents de 18 páginas que representa el contenido de esas mismas nueve partes, pero con mucho mayor detalle.
No sólo sería deseable que nuestros autores y editores tomaran buena nota y siguieran tan estimables costumbres para beneficio de lectores empedernidos de obras científicas y técnicas, sino que, ante el conocimiento generalizado del inglés en nuestro país, la producción nacional de esa clase de libros puede perder terreno.
Poder leer en el idioma materno es posible que sea cada vez menos un argumento de ventas. Por otro lado, editores y autores deberían ser capaces de poner en el mercado libros de actualidad sobre Internet, de alto nivel y realizados por equipos de ingenieros, científicos y especialistas españoles, de manera que no tengamos que depender casi exclusivamente, o de libros en inglés o de libros traducidos del inglés.
Hay muchas formas por las cuales el pensamiento único, que es un peligro para la capacidad de adaptación de las sociedades humanas, se afianza y consolida en lugar de tender a desvanecerse, y una de ellas es, sin duda, una excesiva dependencia de un número muy limitado de canales de información, por muy buenos que sean esos canales, o con el predominio de una sola lengua y una sola cultura en todo el mundo, por más grande y admirable que sea esa cultura. Y que conste que tampoco estoy defendiendo el relativismo cultural, que es otra cosa. Espero que otro día podamos hablar sobre esto último.
Lluís Codina. Profesor de documentación periodística. Univ. Pompeu Fabra. Barcelona.
codina_lluis ARROBA fcsc.upf.es
Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1996/diciembre/sobre_la_internet_de_papel_la_indizacin_y_la_publicacin_en_lengua_inglesa.html