El profesional de la información


Marzo 1998

Motores de recuperacion de informacion: un analisis comparativo (parte II)

Por Mari Carmen Marcos Mora

Resumen: Los motores de búsqueda son una de las herramientas más utilizadas para recuperar información en el web. A diferencia de los directorios o índices temáticos, los motores cuentan con un robot que recorre la red de forma automática y almacena la información recogida en una base de datos. Algunos de ellos se pueden consultar en distintos servidores e incluso disponen de versiones en varios idiomas. Además de las funciones de búsqueda propias de los buscadores, ofrecen diversos servicios como directorio, páginas blancas y amarillas, noticias, etc. La cobertura varía de unos a otros, aunque todos ellos se basan principalmente en las páginas web.

Como instrumento documental, los motores reflejan la cadena de información, ya que realizan búsquedas, indizan documentos, permiten la consulta por parte del usuario y ofrecen los resultados de ésta. Todos los aspectos referidos se han analizado en seis de los buscadores más utilizados internacionalmente.

Palabras clave: Motores de búsqueda, Recuperación de información, World wide web.

Title: Information retrieval engines: a comparative analysis

Abstract: Search engines are among the most heavily used tools in information retrieval. In contrast to directories or subject indexes, engines have robots that search across the web automatically and store the retrieved information in a database. It is possible to query the same engine in different servers and some even make different language versions available. Besides their standard search functions, the engines also offer other services like directories, white and yellow pages, news, etc. The coverage varies among the different engines, but all of them are based principally on web pages.

As a documentary tool, the engines take their place in the information chain, with their functions that include searching and indexing documents, admitting user queries, and returning search results. All of the functions discussed in the article have been analyzed in six of the search engines with the greatest use rate internationally.

Keywords: Search engines, Information retrieval, World wide web.

La primera parte de este artículo se publicó en el anterior número de IWE, vol. 7, nº 1-2, enero-febrero de 1998, pp. 18-22.

Mari Carmen Marcos MoraLos motores de búsqueda son quizá las herramientas más documentales de que dispone internet, al menos, el world wide web. Los llamados buscadores actúan desde antes de que un usuario tenga una necesidad de información y quiera satisfacerla por medio de la red hasta que esa persona obtiene los documentos primarios o una referencia a ellos.

Es decir, los motores de búsqueda están presentes en todos los momentos de la cadena documental. En este artículo vamos a analizar precisamente cómo trabajan seis de los motores más importantes en estos momentos en cada fase de la cadena de recuperación de información. Reduciremos esas fases a cuatro:

  • Búsqueda de documentos en la red.
  • Indización de los documentos encontrados.
  • Consultas de los usuarios por medio de la interfaz de interrogación.
  • Presentación de los resultados de la búsqueda.

Los buscadores elegidos para realizar el estudio son los siguientes:

  • AltaVista
  • Excite
  • HotBot
  • InfoSeek
  • Lycos
  • OpenText Index

La flexibilidad de la búsqueda avanzada de AltaVista permite combinar los operadores booleanos de la manera que mejor convenga al usuario

Cómo buscan los motores en la Red

Los buscadores poseen unos programas conocidos con los nombres de robots, spiders, wanderers, crawlers, worms..., denominaciones que hacen alusión a su forma de trabajo. Se trata de software que, a partir de unas determinadas páginas web indicadas por sus responsables, recorre la red yendo de enlace en enlace y recogiendo todos aquellos documentos que encuentra a su paso.

Los robots visitan las páginas que les permiten hacerlo; para preservar unas determinadas páginas web de un servidor -o todas ellas- de la visita de algún robot en concreto o de todos los posibles robots, se ha desarrollado un protocolo de exclusión de robots X en el que se normaliza la creación de ficheros /robots.txt. Otra forma de evitar que una página sea visitada, o tan sólo no sea indizada, es indicarlo por medio de etiquetas meta introduciendo como nombre de la etiqueta (metaname) el término robots y como contenido (content) la especificación nofollow para que el robot no la lea, o noindex para que no la indice.

Cada vez que un robot llega a una página comprueba si la había visitado con anterioridad o si es nueva para él. Si ya la había recogido, se asegurará de que no haya sufrido modificaciones y, en el caso de que sí existan, actualizará la información que almacenaba sobre ella. Si es la primera vez que accede a esa página, tomará los datos de localización y la indizará. También puede ocurrir que páginas que tenía recogidas hayan dejado de estar disponibles en la red o hayan cambiado de servidor; todo esto será hecho notar por el robot, que automáticamente actualizará la base de datos. Desde cada página visitada el robot tiene acceso a otras a través de los nodos que encuentra en ellas; unos robots rastrean los enlaces que proporciona la página principal, otros acuden también a los que aparecen en las páginas referenciadas por las principales, y los hay que descienden incluso hasta un tercer nivel de rastreo.

Cómo indizan las páginas web

Hasta ahora hemos visto cómo el robot recorre las páginas web (u otro tipo de información disponible en internet), pero no cómo esas páginas se disponen para ser recuperadas por el usuario en el momento en que pueda necesitarlas, esto es, qué métodos utilizan los motores para analizar el contenido de los documentos. Podemos atrevernos a decir que realizan una indización automática de los documentos electrónicos a pesar de que todavía no han explotado todas las técnicas en la mayoría de los motores.

El sistema más habitual consiste en recoger el texto completo de cada página encontrada y volcar cada palabra en el fichero invertido de la base de datos; así, cada palabra tendrá una sola entrada en el fichero acompañada por los datos de ubicación de los documentos en los que se encuentra.

Desde el punto de vista informático, esta técnica es la más sencilla de realizar para un ordenador, pero el tamaño de la base de datos aumenta de una forma desproporcionada y, además, al recuperar páginas completas se carga mucho el tráfico de la red.

Desde el punto de vista documental, las técnicas de frecuencia de aparición de términos en los documentos como revelación de su contenido resultan insuficientes, y se tiende hacia una búsqueda que tenga en cuenta el significado de las palabras y expresiones y las imprecisiones del lenguaje natural. El recuento estadístico de los términos es algo más elaborado si se tiene en cuenta también la frecuencia con que aparecen esos términos en la totalidad de la base de datos. Es decir, a un término que aparezca con gran frecuencia en un documento pero también muchas veces en otros documentos se le asignará menos peso que a otro término que aparezca con la misma frecuencia en el documento pero que apenas esté en el resto de los documentos de la base de datos.

En estos recuentos es conveniente que el sistema disponga de una lista de palabras vacías o antidiccionario, pero en el ámbito de internet, por ser de carácter universal, se complica demasiado por la pluralidad de idiomas que alberga, ya que un término vacío de significado semántico en una lengua puede tenerlo en otra.

Dentro de la técnica de frecuencia de aparición de los términos, algunos motores han ideado métodos que afinan la indización automática, como son la ponderación de las palabras que se encuentran en determinadas partes de los documentos como el título, las cabeceras principales y los primeros párrafos, ya que el contenido fundamental suele estar concentrado en esos puntos. Los robots distinguen esa información porque leen las etiquetas del lenguaje del web, el html. Un ejemplo de motor que indiza de esta manera es Lycos; este buscador realiza la indización en texto completo, pero da una mayor importancia a los términos que se encuentren en el título, en la dirección electrónica del documento, en las cabeceras, en los enlaces a otros documentos y en las primeras veinte líneas.

Pero de todos los métodos que se están usando, el que mejor resultado ofrece con menor gasto de recursos por parte de los motores es el que recupera la información de contenido de las etiquetas meta. Se trata de unas etiquetas html que ofrecen información acerca del propio documento, tanto de tipo formal como de contenido. Por el momento no está regulado su uso y no todas las páginas disponen de ellas, aunque cada vez son más las que incluyen las destinadas al resumen y a los descriptores. Los autores de las páginas son los responsables de utilizar las metaetiquetas en sus documentos. Los motores son capaces de reconocer las etiquetas html, y por tanto también las meta, pero no todos han implementado este sistema de análisis de contenido de los documentos de la red. Entre los primeros que recurrieron a las etiquetas meta para recuperar información en lugar de recorrer las páginas íntegramente se encuentran AltaVista y OpenText Index, pero cada vez son más los motores que hacen uso de estas etiquetas para recuperar información y para presentar los resultados a los usuarios.

HotBot incluye opciones que limitan las búsquedas por la fecha de creación de los documentos, por el lugar geográfico en el que se encuentra el servidor y por el tipo de documento que se quiere recuperar. Además ofrece diferentes formatos de presentación de los resultados

Qué funciones de búsqueda proporcionan

Las posibilidades de búsqueda que ofrecen los motores son el aspecto que les hace ser más o menos adecuados en la recuperación de información relevante para satisfacer las necesidades de los usuarios. Las capacidades que poseen son las propias de los sistemas de recuperación de información automáticos existentes fuera de internet: operadores booleanos, operadores de proximidad, operadores de comparación, truncamiento y máscaras, limitación de las búsquedas a determinados campos y recuperación de una cierta parte de un documento o un tipo de archivo.

Veamos cómo han implementado las diversas posibilidades de búsqueda estos seis motores.

Operadores booleanos

El álgebra de Boole se utiliza en la recuperación de información automática para establecer las condiciones de búsqueda en lo que se refiere a la combinación de los términos dentro de los documentos. Los operadores booleanos son tres: intersección, unión y exclusión.

La intersección sirve para controlar que los documentos recuperados van a contener todos los términos de búsqueda introducidos en la ecuación; se identifica con la conjunción copulativa Y, que equivale a la operación de la multiplicación. Tiene como consecuencia un menor número de resultados que si se usa el operador de unión, ya que deben aparecer en cada documento todas las palabras para ser recuperados.

La unión equivale a la operación de la suma, y se identifica con la conjunción disyuntiva O. La unión de dos o más términos o secuencias en una ecuación de búsqueda lleva a cabo la recuperación tanto de documentos que contengan sólo una de las condiciones como de los que contengan ambas. Su utilización amplía el número de resultados en relación a lo que ocurre con el operador de intersección.

La exclusión o negación sirve para indicar que determinados términos no deben aparecer en ninguno de los documentos recuperados. Matemáticamente equivale a la resta; se identifica con el adverbio de negación NO.

En una ecuación de búsqueda se pueden combinar los tres operadores o agrupar varios términos con un operador frente a otros términos utilizando paréntesis. Por ejemplo, si queremos encontrar información de las películas dirigidas por Fernando Trueba en las que actúen Jorge Sanz, Gabino Diego o Maribel Verdú, pero no Ariadna Gil, introduciremos la secuencia siguiente:

Fernando Trueba Y (Jorge Sanz O Gabino Diego O Maribel Verdú) NO Ariadna Gil

Excite presenta diez términos relacionados con la cadena de búsqueda y permite seleccionarlos para acotar la ecuación. También dispone de una opción para ordenar los resultados por sitios web

Todos los motores analizados excepto InfoSeek permiten recurrir al álgebra de Boole, unos sólo en la opción de búsqueda avanzada, otros también en la búsqueda simple. Algunos -los menos- permiten introducir directamente la ecuación de búsqueda booleana en la ventana de interrogación, como ocurre en AltaVista en la pantalla de búsqueda avanzada. Otros presentan menús desplegables con las opciones booleanas, por ejemplo en la versión en español de Lycos y en OpenText Index; pero es cada vez más habitual que los creadores de motores intenten simplificar al usuario el manejo de la herramienta y en lugar de ofrecer los operadores directamente lo hacen por medio de explicaciones: en lugar de Y utilizan la frase “todos los términos deben estar incluidos en los documentos”, en lugar de O “algunos de los términos aparecerán en los documentos” y en lugar de NO “términos que no deben aparecer en los documentos”. Esta manera de esconder los operadores la ha adoptado entre otros HotBot en las pantallas de búsqueda simple y avanzada. La facilidad de uso de los booleanos por medio de menús desplegables tiene como inconveniente que se pierde la posibilidad de agrupar con paréntesis los términos y los operadores para crear subsecuencias de búsqueda.

Operadores de presencia y ausencia

Poseen una función similar pero no igual a la de los booleanos. La presencia indica la obligatoriedad de que un término aparezca en todos los documentos recuperados; la manera más habitual de indicar esta condición es preceder al término afectado del signo de adición (+). La ausencia significa que el término en cuestión no deberá estar incluido en ninguno de los documentos recuperados; se indica con el signo de la sustracción precediendo al término. Por ejemplo, si nos interesa encontrar información sobre la educación fuera de Europa, deberemos introducir:

+educación –Europa

La mayoría de los motores incluyen estos operadores; de los seis elegidos la tienen AltaVista, Excite y HotBot, en la búsqueda avanzada, e InfoSeek.

InfoSeek ofrece el porcentaje de relevancia de los resultados y la posibilidad de recuperar más documentos similares a alguno de los recuperados

Operadores de proximidad

Sirven para limitar el espacio que se quiere que haya entre dos términos introducidos. Se pueden buscar vocablos que estén juntos, separados por varias palabras o caracteres, que se encuentren en una misma frase o párrafo, y además especificar si se debe respetar el orden en el que se han introducido los términos, o no tiene que tenerse en cuenta. Estos operadores, habituales en los sistemas de recuperación de información documentales, no se han implementado de forma generalizada en los motores, excepto en las opciones de búsqueda de frases. La mayoría de los motores permiten indicar si la secuencia de búsqueda introducida debe considerarse como una frase; la frase es un tipo de proximidad. Concretamente se trata de la adyacencia, puesto que los términos deben aparecer seguidos, y además respetando el orden en el que se introdujeron. Esta opción está disponible en InfoSeek encerrando los términos entre comillas o guiones, en la búsqueda avanzada de AltaVista, Excite y Lycos, y desde la simple y avanzada de HotBot y Open Text Index.

El operador de proximidad que más a menudo incluyen los buscadores, aparte de la búsqueda de frases, es Near. Está disponible en la pantalla de búsqueda avanzada de AltaVista, en InfoSeek encerrando los términos entre paréntesis, en Lycos y OpenText Index.

Otros operadores de proximidad menos habituales son los que indican que un término esté antes o después que otros. Los encontramos en Lycos y en OpenText Index.

Operadores de comparación

Se usan en los motores para indicar al sistema de búsqueda que los documentos recuperados deben contener una fecha anterior, igual o posterior a la indicada; se utilizan para restringir las búsquedas por fecha de creación o última actualización de las páginas web. Esta opción está recogida en AltaVista y en HotBot.

Truncamiento

El truncamiento es la suplantación de una parte de un término por un comodín que puede ser sustituido por uno o varios caracteres. Esta opción, habitual en la mayoría de los sistemas de recuperación de información tradicionales, es fácil encontrarla en la mayoría de los motores de búsqueda.

AltaVista permite truncar los términos con el símbolo del asterisco (*). InfoSeek considera, a no ser que se encierren los términos uno a uno entre comillas, que todas las palabras están truncadas por la parte final, es decir, que realiza una comparación parcial o steeming; habrá que tenerlo en cuenta al realizar las consultas, ya que una búsqueda por sal podría darnos como resultado documentos sobre el salmón o sobre saltos de altura. Lo mismo ocurre en Lycos, donde se marcará el fin de las palabras con un punto (.), ya que, si no, busca todas las palabras que comiencen con los caracteres introducidos. El truncamiento en Lycos en otra parte de los términos se indica con el símbolo del dólar ($).

Limitación a uno o varios campos

Algunos buscadores permiten acotar la búsqueda a un campo determinado de los documentos. El motor es capaz de reconocer los campos por las etiquetas html.

AltaVista ofrece la opción de realizar la búsqueda en distintas partes de las páginas web y Usenet. Puede buscar en el anchor, que es el texto que acompaña a los enlaces, en los autores de mensajes de correo electrónico o en los subject, en un tipo de archivo -por ejemplo de imagen-, en los links, en las direcciones, en los títulos de los documentos, etc.

HotBot es capaz de buscar en los títulos; InfoSeek limita la búsqueda al título, al sitio web, a las direcciones y a los enlaces; y OpenText Index hace lo mismo en los campos de título, resumen, encabezamientos y URL.

Recuperación de un tipo de archivo

Al igual que algunos motores permiten limitar la búsqueda a varios campos, otra posibilidad que encontramos en ocasiones es la de recuperar sólo determinado tipo de archivos. Es una opción de búsqueda de gran valor, ya que nos permite acotar el tipo de información que nos interesa recuperar. En estas búsquedas se obtiene como resultado únicamente el fichero que cumple con las especificaciones, no la página web donde se encuentra.

HotBot ha implementado esta capacidad de búsqueda y la ha aplicado a la recuperación de documentos de tipo imagen, sonido, vídeo y shockwave. Estas opciones las tiene disponibles tanto en la pantalla de búsqueda simple como en la avanzada.

Lycos también puede acotar las búsquedas a ficheros de imagen y de sonido, y además es capaz de recuperar frames.

Por medio de menús desplegables, OpenText Index admite la selección de los operadores booleanos y la especificación de la parte del documento donde se quiere localizar cada término

Otras opciones

Además de las capacidades de búsqueda, algunos buscadores han desarrollado otras funciones que les hacen aumentar su capacidad como sistemas de recuperación de información.

Es el caso de las opciones del tipo “más documentos como éste” o more like this disponibles en los resultados de Excite yOpenText Index.Esta posibilidad se brinda junto a cada item recuperado y consiste en que el motor analiza el documento seleccionado y busca los que tengan mayor similitud. Es una manera de encauzar una búsqueda en la que no hayamos obtenido demasiados documentos relevantes.

InfoSeek contiene una opción para buscar en el conjunto de documentos recuperados. Es una manera muy interesante de acotar la búsqueda cuando el número de resultados supera los que podemos leer; además, asegura que la nueva consulta va a dar resultados relevantes y más específicos.

Otra posibilidad que encontramos en más de un motor es la de buscar los enlaces que existen a una dirección electrónica. AltaVista es capaz de localizarlos introduciendo la palabra clave link seguida de dos puntos y la dirección buscada; por ejemplo la consulta

link: http://piramide.unizar.es

recuperará todos aquellos enlaces que haya al servidor Pirámide de la Universidad de Zaragoza (por cierto, servidor de gran interés para asuntos relacionados con Linux y con Biblioteconomía y Documentación). HotBot contiene en el menú desplegable de opciones de búsqueda la posibilidad de recuperar enlaces a un URL. InfoSeek también dispone de esta característica de búsqueda. Algunos buscadores son capaces de buscar nombres propios; es el caso de Infoseek, que interpreta dos palabras seguidas que comiencen por mayúsculas como un nombre de persona, y de HotBot, que tiene una opción específica para la búsqueda de personas. En general, los motores hacen consultas exactas en lo que se refiere al uso de minúsculas y mayúsculas sólo cuando se introducen caracteres en caja alta; si no, buscan indistintamente esos términos escritos usando cualquiera de las dos cajas. Ocurre lo mismo con el uso de signos diacríticos (tildes, diéresis...).

Presentación de los resultados

Nos centraremos fundamentalmente en tres aspectos: los datos que ofrecen de cada item, el orden en el que aparecen los resultados y el número máximo de documentos que ofrece -en total y por página-.

Datos que ofrecen de cada documento recuperado

La información que se da al usuario sobre cada resultado puede ser más o menos detallada según le interese. Casi todos los motores disponen de una opción para indicar el grado de detalle, que puede ir desde la presentación detallada, que suele incluir el título de la página, la dirección, el porcentaje de relevancia respecto a la consulta, el tamaño del documento, y un resumen y los descriptores si el documento tiene etiquetas meta, o en su defecto las primeras líneas de texto.

La presentación reducida se limita a ofrecer el título de la página con un enlace directo a su dirección y una línea de resumen, y en ocasiones el porcentaje de relevancia. La presentación estándar ofrece más o menos información dependiendo de si existe presentación detallada o reducida en el buscador. En algunos motores existe también la posibilidad de ver tan sólo los URLs de los documentos recuperados.

AltaVista y Lycos tienen dos formatos de presentación, uno compacto y otro detallado, mientras que HotBot cuenta con tres niveles. En Excite podemos visualizar los títulos o los títulos junto con los resúmenes.

Ordenación del listado

Se realiza en función de la relevancia que el motor asigna a los documentos según la frecuencia con la que aparecen los términos de búsqueda, tanto en cada documento recuperado como en la totalidad de la base de datos; además, cada vez se tiene más en cuenta la parte de los documentos en la que aparecen los términos, y se da un mayor peso a aquellos que contienen las palabras buscadas en los campos de título y resumen, en los primeros párrafos y en las cabeceras).

En la búsqueda avanzada AltaVista ofrece la posibilidad de indicar los términos que poseen mayor importancia para el usuario, y en función de ellos ordena los resultados; es lo que llama ranking. Excite tiene la peculiaridad de poder agrupar los resultados por sitios web, es decir, que podemos saber qué información interesante se encuentra en un servidor determinado; el orden de presentación de los sitios web lo determina en función del documento de mayor relevancia de cada uno. Además Excite es capaz de eliminar los duplicados.

Número de resultados

La mayoría de los motores más utilizados permiten al usuario limitar el número de los que desea obtener por página, pero es poco habitual que puedan limitar el número de items total que quiere recibir. HotBot es capaz de mostrar hasta un máximo de mil documentos.

Algunos motores cuentan con opciones diferentes además de las vistas; así, HotBot indica el número de documentos que hay en la red y contienen cada uno de los términos introducidos en la cadena de búsqueda. Además, agrupa en un solo item los documentos que se recuperan más de una vez acompañados de las distintas direcciones en las que están ubicados.

InfoSeek yExcite ofrecen junto con los resultados un listado de términos relacionados con los que se han introducido; en ocasiones de gran ayuda, ya que proporciona posibilidades de búsqueda que posiblemente no se le habían ocurrido al usuario.

Entonces ¿cuál es el mejor?

A lo largo de este artículo se han visto los aspectos que pueden inclinarnos a usar un motor u otro para realizar las búsquedas. Dependiendo de las necesidades de información que tengamos en cada momento, nos deberemos dirigir a alguno en concreto que cuente con opciones más adecuadas a la consulta.

No existe el motor de búsqueda ideal, aquel que solucionará siempre con la mayor relevancia y especificidad posible nuestra necesidad de información -¡tampoco existe el usuario perfecto!-, pero sí existen motores que ofrecen posibilidades que otros no poseen. En AltaVista destacan la flexibilidad de la consulta avanzada a la hora de introducir la cadena de búsqueda combinando los operadores booleanos y de proximidad, la opción de introducir los términos de mayor importancia que servirán para ordenar los resultados, y la selección del idioma en el que se quieren recuperar los documentos. De Excite cabe resaltar la opción more like this que aparece junto a cada resultado y la posibilidad de ordenar los items recuperados por sitio web. En HotBot aparecen las limitaciones de búsqueda por fecha, lugar geográfico o dominio y tipo de documento, que suponen un valor añadido respecto a los buscadores que no incluyen estas opciones. De InfoSeek hay que señalar el servicio de recuperación de imágenes ImageSeek, la restricción de la búsqueda a un conjunto de documentos recuperados con anterioridad y el listado de términos relacionados con los introducidos como secuencia de interrogación. Lycos cuenta con una gama de servicios muy amplia y operadores de proximidad. Y por último, OpenText Index posee la opción de buscar documentos similares a uno determinado, varias versiones en otros idiomas y la posibilidad de limitar las búsquedas a determinados campos de los documentos.

Bibliografía

Codina, L. "Cómo funcionan los servicios de búsqueda en internet: un informe especial para navegantes y creadores de información (Parte I)". IWE v. 6, n. 5, mayo 1997, pp. 22-27.

Codina, L. "Cómo funcionan los servicios debúsqueda en Internet: un informe especial para navegantes y creadores de información (Parte II)". IWE v. 6, n. 6, junio 1997, pp. 18-26.

García Marco, F. J.; Tramullas, J. World Wide Web: fundamentos, navegación y lenguajes de la red mundial de información. Madrid: Ra-Ma, 1996.

Vicent, A. "¿Cómo buscar?".

http://wfs.vub.ac.be/schools/timeline/search/index.html

Mari Carmen Marcos Mora
mcmarcos@posta.unizar.es

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1998/marzo/motores_de_recuperacion_de_informacion_un_analisis_comparativo_parte_ii.html