El profesional de la información


Enero 1998

Motores de recuperacion de informacion: un analisis comparativo (parte I)

Por Mari Carmen Marcos Mora

Resumen: Los motores de búsqueda son una de las herramientas más utilizadas para recuperar información en el web. A diferencia de los directorios o índices temáticos, los motores cuentan con un robot que recorre la red de forma automática y almacena la información recogida en una base de datos. Algunos de ellos se pueden consultar en distintos servidores e incluso disponen de versiones en varios idiomas. Además de las funciones de búsqueda propias de los buscadores, ofrecen diversos servicios como directorio, páginas blancas y amarillas, noticias, etc. La cobertura varía de unos a otros, aunque todos ellos se basan principalmente en las páginas web.

Como instrumento documental, los motores reflejan la cadena de información, ya que realizan búsquedas, indizan documentos, permiten la consulta por parte del usuario y ofrecen los resultados de ésta. Todos los aspectos referidos se han analizado en seis de los buscadores más utilizados internacionalmente.

Title: Information retrieval engines: a comparative analysis

Abstract: Search engines are among the most heavily used tools in information retrieval. In contrast to directories or subject indexes, engines have robots that search across the web automatically and store the retrieved information in a database. It is possible to query the same engine in different servers and some even make different language versions available. Besides their standard search functions, the engines also offer other services like directories, white and yellow pages, news, etc. The coverage varies among the different engines, but all of them are based principally on web pages.

As a documentary tool, the engines take their place in the information chain, with their functions that include searching and indexing documents, admitting user queries, and returning search results. All of the functions discussed in the article have been analyzed in six of the search engines with the greatest use rate internationally.

Si el principio del siglo XX trajo consigo el fenómeno conocido como la explosión de la información, el final del siglo, lejos de frenar la velocidad en la producción de documentos, se caracteriza por haber puesto una gran parte de ellos en las redes de telecomunicaciones que se extienden por todo el planeta.

Para organizar esa masa de información que parece que nos rodea -¿nos invade?-, se vienen desarrollando herramientas documentales que pretenden hacer posible una recuperación rápida, efectiva y eficiente de la información. Los sistemas ideados para la documentación en soporte papel tuvieron que adecuarse a las imposiciones de los soportes magnético y óptico; después, con la aparición de internet, esos mismos sistemas se han traspasado a las tecnologías de la telemática.

La estructura jerárquica de acceso a la información que ofrecía gopher y las técnicas documentales de wais quedaron atrás cuando se impuso la flexibilidad del protocolo http y del lenguaje html de las páginas web. En poco tiempo, casi toda la información disponible en la red se ha volcado al web. Son muchos millones de documentos los que se encuentran accesibles mediante este sistema de almacenamiento de información, y muchas las herramientas que existen para facilitar el acceso a ellos: directorios de empresas, localizadores de direcciones de correo electrónico..., pero fundamentalmente son los buscadores y los directorios las herramientas capaces de localizar información acerca de un asunto propuesto por el usuario.

La elección entre motores y directorios, y dentro de cada grupo la inclinación hacia algunos en concreto, debe hacerse conociendo lo que podemos esperar de ellos. Veamos qué tipo de recurso elegir en cada momento y qué posibilidades nos ofrecen algunos de los sistemas de recuperación de información existentes actualmente en internet.

El directorio Yahoo! organiza jerárquicamente la información en categorías.

¿Motores versus directorios?

Los motores de búsqueda son herramientas dirigidas a la recuperación de información disponible en internet. Básicamente, un buscador se compone de un robot que rastrea las páginas de la red en busca de novedades y las indiza, una base de datos donde se almacena una breve referencia de la información indizada y su dirección electrónica, y una interfaz que permite al usuario interrogar al sistema y recibir los resultados obtenidos.

Conviene señalar las características que hacen diferentes a los motores de búsqueda tal y como se acaban de definir respecto a los directorios temáticos o catálogos de la Red. A pesar de que el objetivo de ambos tipos de herramientas es facilitar al usuario la información que éste solicita, la filosofía de unos y otros no es la misma. Fundamentalmente, la diferencia radica en la forma que tienen de buscar información y en la manera de presentarla al usuario. Mientras que en los motores de búsqueda son los robots los que, de manera automática, recorren la Red siguiendo los enlaces hipertextuales para localizar e indizar nuevos documentos, en los directorios existe una selección, una clasificación y una indización de páginas web realizadas por personas.

Por lo tanto, el planteamiento de los motores es intentar recoger toda la información existente en el web y ofrecer al usuario un sistema de interrogación que le permita realizar una selección de entre los resultados recuperados; en cambio, los directorios temáticos ofrecen la información contenida en un número limitado de páginas web previamente seleccionadas por su interés y la organizan de forma jerárquica, de manera que el usuario pueda descender los niveles de especificidad necesarios hasta encontrar la información adecuada a sus necesidades.

Con un motor de búsqueda, el usuario podrá señalar con mayor exactitud las consultas utilizando las opciones propias de un sistema de recuperación de información o base de datos documental, y además se realizará la consulta en casi todo el web, o incluso en otras partes de la Red. Si la ecuación de búsqueda es correcta, en la mayoría de las ocasiones el número de documentos recuperados es excesivo. Afortunadamente, muchos motores poseen la capacidad de ordenar los resultados según la relevancia con respecto a la consulta realizada, lo que ayuda al usuario a seleccionar los documentos que va a leer en primer lugar. Una mala elección de los términos de búsqueda o una errónea combinación de éstos tendrá como consecuencia un resultado inadecuado a la intención del usuario.

Cuando la herramienta de búsqueda de información elegida es un directorio temático, el usuario no necesita formular con términos su consulta, sino que es suficiente que seleccione los temas más afines con sus necesidades. Este sistema asegura que todos los documentos recuperados van a tratar efectivamente del tema en el que se han clasificado, pero probablemente se hayan perdido muchos otros que no han sido seleccionados por los responsables del directorio.

Las diferencias entre motores -o buscadores- y directorios son notables. En principio, ni unos ni otros son la solución ideal para asegurar una correcta y completa recuperación de información en el web, pero quizá sí lo sea, por el momento, la combinación de ambos. Para búsquedas muy concretas y definidas, es recomendable el uso de un motor, ya que hará una búsqueda exhaustiva en todo el web con poca posibilidad de recuperar documentos no relevantes. Si, por el contrario, lo que se quiere localizar es información acerca de un tema en general, conviene comenzar la búsqueda por un directorio, ya que proporcionará documentos relevantes sobre dicho asunto y en esas páginas se encontrarán enlaces a otras con información relacionada.

AltaVista permite acotar las búsquedas a documentos escritos en un determinado idioma.

Qué nos ofrecen los motores de búsqueda

Más de un millar de motores nos ofrecen ayuda para encontrar aquella información que buscamos -si está en la Red-; cada motor posee unas características a la hora de almacenar, indizar, recuperar y presentar la información recogida por el robot que lo hacen ser más o menos adecuado como herramienta de búsqueda y recuperación documental.

Son demasiados para conocer y usarlos todos, pero a pesar de la gran oferta que existe de este tipo de herramientas, la mayoría de las consultas se realizan en un número mucho menor de buscadores. Nos centraremos en seis de los más utilizados actualmente:

  • AltaVista
  • Excite
  • HotBot
  • InfoSeek
  • Lycos
  • OpenText Index

De ellos analizaremos las características que los hacen ser los más célebres, prestando especial atención a las capacidades de recuperación de información desde el punto de vista documental.

Mirrors y versiones

De estos buscadores, sólo AltaVista y Excite disponen de mirrors que colaboran a liberar el tráfico. Los mirrors son servidores que ofrecen la misma información que el servidor original -en estos casos estadounidense-, aunque en ocasiones en un idioma diferente.

AltaVista cuenta con cuatro espejos: en Malasia, en Australia, en Suecia y, desde el verano de 1997, el último que ha puesto en funcionamiento, el AltaVista Magallanes para la Península Ibérica y Latinoamérica traducido al español y al portugués.

Excite también posee servidores en otros continentes; dentro de Europa tiene mirrors en Francia, en Alemania, en los Países Bajos, en Suecia y en el Reino Unido, y fuera de Europa en Australia y en Japón.

Otros buscadores han preferido realizar versiones de los originales en el mismo idioma o en otros. Es el caso de OpenText Index, InfoSeek y Lycos.

OpenText Index dispone de versiones en español y portugués (Hola) y japonés.

http://www.atthola.com/cgfindit.htm

http://japan.index.opentext.net

para cuya visualización es preciso tener instalado un cliente que reconozca los caracteres japoneses. Además, existen otras compañías que utilizan su motor de búsqueda para prestar servicios similares. Entre ellas destaca PolarSeach.

http://www.polarsearch.com

InfoSeek ha preparado versiones reducidas del buscador original en países europeos (Dinamarca, Francia, Alemania, Italia, Países Bajos, Suecia, España y Reino Unido), en Brasil y en Japón.

Lycos ha optado por la misma idea que InfoSeek y ha dispuesto versiones en distintos puntos de Europa: Alemania, Suecia, Francia, Bélgica, Italia, Reino Unido, Países Bajos, España y Suiza.

De los seis motores de búsqueda seleccionados para analizar, sólo HotBot no tiene ningún mirror ni ninguna versión del buscador original.

Servicios de valor añadido

Puesto que la función para la que se crea un motor de búsqueda es recuperar información almacenada en internet, los buscadores disponen de una serie de servicios de información aparte de las ventanas de interrogación en las que el usuario introduce los términos de búsqueda. Estos servicios, que suponen un valor añadido, pueden ser de distintos tipos. Los agruparemos de la siguiente manera:

Directorio temático. Aunque no todos los motores lo poseen, viene siendo una práctica cada vez más habitual ofrecer una selección de documentos organizada jerárquicamente en materias, entre las que se suelen encontrar los temas siguientes: informática e internet, educación, política, historia, ocio, salud, información empresarial. De los seis motores que estamos analizando, ni AltaVista ni OpenText Index disponen de dicho directorio.

Personalización de las preferencias en las opciones de consulta. Esta opción resulta de gran utilidad para quien haya decidido utilizar frecuentemente un mismo buscador; permite seleccionar todas las opciones de búsqueda que ofrece, por ejemplo el operador booleano que se quiere que aparezca en pantalla directamente, la presentación de los resultados con mayor o menor grado de detalle, el número de documentos recuperados por página... Las preferencias se almacenan con un nombre de usuario y una contraseña, que tendrán que ser utilizados en el momento de recuperarlas cada vez que se acceda; así ocurre en HotBot.En AltaVista el sistema para almacenar las preferencias consiste en almacenar la página en el bookmark o dejarla como homepage. El resto de los motores analizados no poseen esta posibilidad.

Sistema de ayuda sobre el propio motor. Todos los buscadores -nos referimos a los seis objeto de estudio- cuentan con ficheros que explican cómo debe usarse el motor para efectuar correctamente las consultas. Estas ayudas son eminentemente prácticas, ya que se valen de ejemplos para mostrar las diferentes posibilidades de búsqueda de que dispone el motor. En muchas ocasiones se ha diferenciado la ayuda de la búsqueda simple de aquella que se refiere a la avanzada, como ocurre en AltaVista.

Servicio de páginas blancas. Se trata de una herramienta de localización de personas gracias a la que es posible conocer sus direcciones de correo electrónico, y en algunos casos otra información referente a su empleo, sus aficiones... Unos motores ofrecen acceso directo a servicios de páginas blancas como WhoWhere, y otros han desarrollado su propio servicio. Excite, HotBot, OpenText Index y Lycosson los que lo tienen de los seis motores analizados.

Servicio de páginas amarillas. Ayuda a localizar empresas que están presentes en el web. Como ocurre con el servicio de páginas blancas, la información que se proporciona de cada empresa varía en función del localizador utilizado y de los datos que la empresa haya facilitado, así como su dirección electrónica. Disponen de este servicio Excite, HotBot, Lycos eInfoSeek. En unas ocasiones se trata de un servicio propio del motor, y en otros es un enlace a servicios como BigYellow.

Servicio de noticias de actualidad. Como información complementaria, algunos buscadores realizan una recopilación de las noticias del día y las ponen a disposición de sus usuarios desde la pantalla principal. Así ocurre en InfoSeek -con información sobre el mundo, sobre negocios, tecnología y deportes, y la posibilidad de personalizar estos temas-, Lycos -en las opciones LycosPro y TopNews- y OpenText.

Últimas novedades en la red y páginas de especial interés. Otro servicio añadido que incluyen algunos motores es la selección de páginas web en función de su novedad o de su interés. Son los cool sites de OpenText Index. Lycos es el que más se ha volcado en estos servicios: los sitios más interesantes en el Top 5%, el New2Net con lo último en la Red, y el FunClicks con los enlaces a los sitios más divertidos.

Mapas de lugares . No es uno de los servicios más habituales, pero sí lo encontramos en Excite,InfoSeekyLycos.Este último, además, ofrece el servicio CityGuide, que es una guía de viajes en la que se ofrece información acerca de muchos lugares.

Información especializada . Bolsa, meteorología, horóscopo, resultados deportivos, turismo... Excite yLycos son los dos buscadores que más atención han puesto en este tipo de información.

Servicio de compra de productos, reserva de vuelos y hoteles.

Descarga de shareware . Poco habitual pero de gran interés. Lo encontraremos en InfoSeek y en Lycos.

Partes de la Red que abarcan

El campo de búsqueda propio de los motores en general es el web por el simple hecho de que en él se recoge la mayoría de la información que necesitan los usuarios de la red; sin embargo algunos buscadores ofrecen la posibilidad de recuperar información que se encuentra en otra parte de internet o a la que se accede mediante un protocolo distinto al http. Es el caso de los motores que permiten realizar búsquedas en Usenet o en otros grupos de noticias, y los que aún ofrecen la posibilidad de buscar en servidores gopher, ftp...

De estos seis motores de búsqueda elegidos para comentar, AltaVista, Excite, HotBot eInfoSeek contienen la opción de recuperar información tanto de páginas web como de Usenet. Alguno de ellos dispone de opciones más específicas de selección del lugar de búsqueda, como ocurre en InfoSeek, que tiene la capacidad de restringir la consulta a las FAQs; o en HotBoty Lycos, que permiten centrar la búsqueda a uno de sus servicios como son el directorio y las novedades deHotBot o el Top 5% de Lycos.

Otra peculiaridad de algunos buscadores es que son capaces de restringir la consulta a los servidores que cumplan alguna condición, que suele ser normalmente el dominio de su dirección. HotBot posee una opción de este tipo que ayuda a limitar el ámbito de recuperación por dominio (.es, .nl, .edu, .gov...). Similar a esta opción es la que nos ofrece AltaVista desde las pantallas tanto de búsqueda "simple" como "avanzada", y que consiste en la elección del idioma en el que se busca la información; si el usuario decide que sólo le interesa recibir documentos en español, la búsqueda se limitará a las páginas que hayan elegido este idioma para expresar su contenido; si quiere recibir documentos en español y en inglés exclusivamente, deberá realizar dos veces la consulta, seleccionando cada idioma. Esta opción de AltaVista está disponible en la búsqueda en páginas web y en grupos de noticias Usenet.

(Continuará en el próximo número)

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1998/enero/motores_de_recuperacion_de_informacion_un_analisis_comparativo_parte_i.html