Julio 1996
Una nueva forma de recuperar información: los robots personales
Por Ricardo Eíto Brun
Como resultado del increíble crecimiento y progresiva
monopolización que el WWW está ejerciendo sobre
Internet, se han propuesto distintos mecanismos capaces de superar
las limitaciones de los sistemas de recuperación de
información basados en la navegación hipertexto.
Las propuestas se han materializado en tres grandes líneas de trabajo:
a) Índices compilados 'manualmente', que organizan la información de acuerdo con algún tipo de clasificación jerárquica: Yahoo, IBC Sleuth, The Mother of All the Bulletin Boards, etc.
b) bases de datos creadas automáticamente por 'robots' o 'arañas', y
c) métodos de indización distribuida, en los que cada servidor web crea un índice de sus propios recursos, que posteriormente engrosará una base de datos centralizada sobre la que podremos lanzar nuestras ecuaciones de búsqueda (Aliweb o Harvest).
El nuevo rol del cliente en la recuperación de información
Como contrapartida a estos sistemas han surgido los denominados 'robots personales'. Este tipo de aplicaciones aparecen integradas con el cliente web y ofrecen una funcionalidad supuestamente similar a la de los robots reseñados en el párrafo anterior.

El primer problema que encontramos al tratar este tema es el de una manifiesta inconsistencia terminológica: con este término se designa un conjunto de herramientas que sirven para distintos propósitos. ¿Qué características debe ofrecer una aplicación para denominarse 'robot personal'?
La definición clásica de 'robot' es la de un agente que atraviesa de forma automática la WWW con distintos fines: análisis del crecimiento de la red, mantenimiento de la estructura hipertexto, duplicación de directorios y elaboración de bases de datos que permitan acceder directamente a recursos informativos mediante palabras clave.
El rasgo característico de un robot es su capacidad de explotar, para cualquiera de estos propósitos, la estructura hipertextual del web. Así, tomando como punto de partida una URL inicial, el robot recupera un fichero html que transfiere al sistema local de forma similar a como lo hace un cliente web; pero, una vez recuperado, en lugar de proceder a su visualización, se servirá de él para generar recuentos estadísticos, engrosar un índice sobre el que podremos ejecutar búsquedas, etc.
Tras esto, el robot identificará las referencias hipertextuales que contiene el documento y que nos dirigen a otras unidades informativas en el mismo o en otros servidores de la red; de forma recursiva, el robot procede a recuperar los documentos referenciados en esos nexos, a su tratamiento, obtención de nuevas URLs, etc.
Podemos concluir que la 'navegación automática' es el rasgo distintivo de un 'robot', y que cualquier software que pretenda tildarse como 'robot personal' deberá ser capaz de proceder de esta forma. Sin embargo, no todas las herramientas así denominadas comparten esta característica; en las siguientes líneas describiremos cinco aplicaciones de este tipo, dos de ellas desarrolladas con fines comerciales.
CiberPilot Pro
Es un producto de NetCarta Corporation que posibilita la creación de mapas de los servidores WWW. Es decir, como resultado de su acción, CiberPilot genera un fichero con extensión .wmp (WebMap) en el que se representa la estructura hipertextual de las páginas recogidas en un servidor. De esta forma, el usuario podrá servirse de estos mapas para acceder a los recursos disponibles en él mediante una única conexión, eliminando la navegación hipertexto. Sin embargo, si optamos por ésta en lugar de por un acceso directo, los mapas de CiberPilot actúan como guía de la estructura del servidor, evitando el principal problema de la recuperación en entornos hipertexto: perdernos en la información.
Un mapa CiberPilot presenta una estructura jerárquica de iconos, cada uno de ellos con su respectiva leyenda. El tipo de icono variará dependiendo del recurso referenciado en la página web (imagen, sonido, referencia a una página externa, dirección de correo electrónico, etc.).
Por otra parte, las leyendas equivaldrán al texto comprendido entre las etiquetas <title> y </title> si el recurso referenciado es una página html; al texto especificado tras el atributo atl en el caso de una imagen; etc. No obstante, existe la posibilidad de modificar en cualquier momento las leyendas asociadas a un icono.
Ejemplo: Al mapa de la imagen 1 le corresponden varias páginas html. La primera de ellas, en un primer nivel de jerarquía, contendrá las siguientes referencias:
<html>
<title>Home Page</title>
<body>
<img src="icons/expl_bak.jpg">
<a
href="tutorial.html">Download the
tutorial</a>
<a
href="hawaymap.html"NetCarta Webmaps related to
Haway</a>
<img src="icons/sunset.jpg" alt="Sunset
over Oahu">
<a
href="about.html">About NetCarta</a>
............
</body>
</html>
Para elaborar un mapa deberemos indicar a CiberPilot la URL del servidor, así como una serie de parámetros que especifiquen cuántos ficheros html deseamos examinar, con qué profundidad deberá procederse en la búsqueda (CiberPilot utiliza una recuperación 'breadth first'), y si queremos habilitar la navegación entre distintos servidores una vez se encuentre una referencia a un fichero residente en otro host.
Creado un mapa, podremos hacer uso de él a través de CiberPilot, que arrancará el cliente web siempre que deseemos abrir la conexión con cualquiera de los recursos reseñados en sus mapas.

Otro aspecto interesante es que CiberPilot implementa un sistema similar al protocolo de exclusión de robots (que por cierto también respeta), el cual le posibilita reconocer si un servidor ha sido visitado con anterioridad por otro robot CiberPilot. Para ello, el administrador del servidor deberá contar con un mapa de sus propios recursos, el fichero default.wmp, al que se hará referencia en la hoja principal mediante:
<a href="/directorio/default.wmp">NetCarta WebMap</a>.
CiberPilot, al identificar la presencia de este fichero, lo recuperará y finalizará su interacción con el servidor.
Obviamente, para que todo esto sea posible, siempre que se cree un nuevo mapa de un servidor, deberá enviarse a su administrador el fichero resultante, para que éste pueda incluir el enlace pertinente si lo considera oportuno.
Finalmente indicaremos que se han creado directorios de mapas CiberPilot para que sus usuarios puedan compartir el resultado de su trabajo; así, podemos encontrar 'webmaps' en:
Es un desarrollo de Mark Johnson en el Queen Mary and Westfield College de la Universidad de Londres. Aunque Simon aparece referenciado en ocasiones como un 'robot personal', nos resistimos a aceptar esta designación.
El funcionamiento de Simon puede sintetizarse de la siguiente forma: nos permite crear una agenda de URLs a las que podemos asociar una serie de palabras clave que facilitarán su recuperación; posteriormente, tomando como base la información consignada en la agenda, un procedimiento algorítmico genera un 'mapa', más concretamente una estructura arborescente, de los distintos 'espacios conceptuales' especificados por las palabras clave.
El 'mapa' consiste en una hoja html en la que, bajo cada materia, se enumeran las URLs donde se trata ese tema.
Obviamente constituye un abuso terminológico designar a Simon como un 'robot personal'; de hecho, la denominación más acertada y acorde con su funcionalidad sería la de un 'gestor de URLs'.
Podemos encontrar más información en:
http://www.elec.qmw.ac.uk:80/simon/
TkWWW Robot
Integra un visualizador o cliente web con un robot personal. De hecho, TkWWW comenzó siendo un visualizador distribuido libremente en Internet, al que posteriormente su autor, Scott Spetka, añadió una mayor funcionalidad que le permite ser reconocido como un auténtico 'robot personal de primera generación'.
Aunque la principal orientación de TkWWW es la recuperación de información (configurando una base de datos local), puede desempeñar cualquiera de las funciones propias de un robot, ya que su funcionamiento se basa en una serie de extensiones programables por el usuario en lenguaje TCL (tool command language, lenguaje para desarrollo en sistemas Unix); así, TkWWW constituye un entorno abierto a tantos usos como podamos imaginar, por lo que Spetka no duda en referirse a él como un 'robot de propósito general'.
Técnicas de navegación en entornos hipertexto
Establecemos la distinción entre búsquedas 'breadth-first' y 'depth-first'.
En el primer caso, se exploran todos los nodos referenciados en el documento actual. Estos nodos se encuentran en un mismo nivel de jerarquía. Seguidamente, se exploran los nodos referenciados en los nodos anteriores, descendiendo un único nivel, etc.
En una búsqueda 'depth-first', cada vez que se recupera un nuevo nodo, se procede a explorar los nodos referenciados en él descendiendo por la jerarquía tantos niveles como consideremos oportuno.
Fisch-Search
Es un sistema integrado en el cliente X-Mosaic desarrollado por Paul de Bra y Reinier Post en la Eindhoven University of Technology. Su principal característica es que efectúa la recuperación de documentos de forma similar a un robot tradicional, aunque su objetivo no se cifra en la creación de una base de datos local, sino en la navegación automática, recuperando documentos html afines a un patrón de búsqueda propuesto inicialmente por el usuario.
El algoritmo que utiliza Fish-Search sigue los siguientes
pasos:
c27ca849a6dc32b1bd4b87487984992c
Una deficiencia de Fish-Search es que no genera ningún registro de las búsquedas que pueda reutilizarse en sesiones posteriores. Para suplir esta carencia, sus autores lo complementaron con Lagoon.
Lagoon es un sistema caché que permite al usuario crear una copia de los documentos recuperados que considere relevantes. Con él los distintos usuarios de Fish-Search pueden generar un conjunto de documentos a los que se accede con mayor frecuencia, que se localizará en el servidor web local y que otorga cierta persistencia a los resultados de Fish-Search.
Además de su implementación en X-Mosaic, podemos comprobar el funcionamiento de este robot mediante un script cgi que emula su comportamiento, accesible en la URL:
http://www.win.tue.nl/bin/fish-search
El código de este cgi puede obtenerse mediante ftp en:
ftp://ftp.win.tue.nl/pub/infosystems/www
e implementarse en cualquier servidor.
Arachnid
Dentro de su línea de productos para usuarios de Internet, la empresa británica Money Spider
http://www.moneyspider.com
ofrece Arachnid: un 'robot personal' para entorno Windows95.
Arachnidtiene la capacidad de efectuar automáticamente la conexión y la desconexión a un servidor WWW o FTP a una hora determinada que previamente hayamos estipulado, y navegar en la estructura de ese servidor recuperando cualquier tipo de documento (html, imagen, sonido, etc.).
Otra característica de Arachnid es su capacidad de generar listas (de documentos html, direcciones e-mail...), explotando las marcas de los documentos hipertexto que recupera.
De todas formas, Arachnid está dirigido claramente hacia la transferencia de ficheros, y no disfruta del rasgo característico de un auténtico robot: la capacidad de navegar de forma automática entre distintos servidores.
E-mail robots: URL-Minder y Sift
Para concluir esta breve reseña dedicada
a los llamados 'robots personales', haremos referencia a
dos sistemas denominados 'e-mail robots': URL-Minder
y Sift. Estos sistemas consisten en agentes que
periódicamente nos envían información
vía correo electrónico referente a:
respectivamente.
Ambos pertenecen al grupo de servicios gratuitos ofrecidos por NetMind Free Services a los usuarios de Internet gracias al patrocinio de Lynux y Apache. Para disfrutar de estos servicios únicamente tenemos que registrar nuestra dirección de correo electrónico y las direcciones sobre las que queremos se comprueben los cambios (en el caso de URL-Minder), o una materia tratada en los grupos Usenet sobre la que queramos permanecer informados.
Un aspecto importante en el caso de URL-Minder es que nos permite registrar ecuaciones de búsqueda sobre cualquier índice Internet (especificando la URL o 'action' asociada al formulario del que nos servimos para lanzar la ecuación), de forma que, cuando se produzca una actualización en el conjunto de documentos resultantes de esa búsqueda, URL-Minder nos informará puntualmente, materializándose así en el entorno WWW los métodos de difusión selectiva de la información.
Un servicio que ofrece un sistema de alerta similar es SmartMarks, de Netscape Communications.
De todas formas, y a pesar de su potencial utilidad, nos mostramos reticentes a aceptar la validez de la autodenominación que emplean estos dos servicios como 'robots personales'. Para obtener más información sobre estos agentes, suscribirnos, etc., podemos dirigirnos a la URL:
http://www.netmind.com.
Bibliografía
The Advent of Personal Spiders on the Web: NetCarta White Paper.
http://www.netcarta.com/help/wpaper/WP2.htm
Bra, P. M. E. de; Post, R. D. J. Information Retrieval in the World Wide Web: Making Client-based searching feasible. En First International Conference on the World Wide Web, Geneve, 25-27 May 1994, pp. 76-82.
http://www.win.tue.nl/win/cs/is/reinpost/www94/www94.html
Bra, P. M. E. de; Post, R. D. J. Searching for Arbitrary Information in the WWW: the Fish-Search for Mosaic.
http://www.win.tue.nl/win/cs/is/debra/wwwf94/ article.html
FAQ about URL-Minder: Your Own Personal Web Robot.
http://www.netmind.com/URL-minder/faq.txt
Rosoff, Matt. Save time surfing the Web with a personal spider. Cnet, 25-III-1996.
http://www.cnet.com/Content/Reviews/Hot/032596/cyber.html
Spetka, Scott. The TkWWW Robot: Beyond Browsing. Utica, Rome: Sunyit Institute of Technology.
http://fang.cs.sunyit.edu/Robots/spetka.html
Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1996/julio/una_nueva_forma_de_recuperar_informacin_los_robots_personales.html