Marzo 1999
Posibilidades de consulta en los buscadores
Por Agustín Montes Hernández
Resumen: Análisis de las posibilidades de consulta que ofrecen algunos motores e índices de búsqueda en internet, a partir de operadores booleanos, truncamientos, campos de fecha, ranking, idioma, consulta por campos y acotamiento o filtrado de términos.
Palabras clave: Motores de búsqueda, Índices temáticos, Consulta, Recuperación, Operadores booleanos, Ordenación (por pertinencia), Filtrado de términos, Truncamiento, Delimitadores.
Title: Capabilities of search engines: an analysis
Abstract: Analysis of the searching capabilites of different internet-based subject directories and search engines through their use of boolean operators, truncation, date fields, ranking, language, field searching and term filtering.
Keywords: Search engines, Subject directories, Searching, Retrieval, Boolean operators, Ranking, Term filtering, Truncation, Field searching.
Antes de empezar se debe explicar el concepto al que alude el título. ¿A qué se llama “posibilidades de consulta”? Para el contexto de este trabajo, se refiere a las distinta técnicas y herramientas que el usuario puede utilizar con el fin de localizar la información que necesita en la Red haciendo uso de buscadores.
Dentro de estos recursos para la búsqueda se encuentran: la posibilidad de influir en el número, el nivel de descripción y el ranking de los resultados, si el buscador ofrece otras ayudas derivadas de las respuestas y si permite consultar a través de categorías, filtrar términos, limitar por la fecha y el idioma de los documentos, truncar palabras, frases exactas, los operadores de requerir/excluir, los operadores booleanos y los delimitadores.
El propósito de este artículo es comparar y describir estas posibilidades de consulta avanzada que ofrecen los motores de búsqueda y los índices en internet. Para ello, se analizan los buscadores AltaVista, Hotbot, Northern Light, Infoseek, Yahoo, Excite y Lycos.
¿Por qué estos buscadores y no otros?
Simple, son los más potentes del mercado y los más utilizados a nivel internacional. Además, se sitúan como los mejores en la mayoría de los trabajos publicados que los evalúan o describen, como por ejemplo en los artículos de José A. Senso1, Danny Sullivan2, 3 y Miguel A. Díez4.
Algunas de las características por las que destacan estos buscadores son, entre otras, que:
Los índices y los motores de búsqueda
Como se desprende de los artículos de Miguel A. Díez4, Martín López7, Álvaro Ibáñez8, Lluís Codina9 y Danny Sullivan11, lo que diferencia a ambos es la forma de obtener los datos y la presentación de los resultados.
Los índices, también llamados directorios temáticos, son grandes bases de datos donde los usuarios o creadores de las webs sugieren las páginas mediante formularios, y, en el caso de Yahoo, son profesionales quienes las evalúan y las colocan en la categoría adecuada. Además, un gestor de páginas web se encarga de hacer de pasarela entre la base de datos y el usuario que consulta.
La información se presenta clasificada en varios grupos conceptuales encabezados por términos orientativos, y cada grupo está dividido jerárquicamente en más subcategorías a través de las cuales se va descendiendo en niveles de especificidad hasta encontrar lo que se desea.
Por el contrario, los motores suelen usar un robot que explora la Red automáticamente en busca de documentos nuevos o modificados, un gestor de bases de datos que almacena en un índice todos los términos que considera necesarios (extraídos del título, abstract y otras partes de la página) y la URL del documento localizado por el robot, un sistema de interrogación que facilita un lenguaje de consulta, y, por último, un gestor de páginas web que hace de pasarela entre el usuario y el índice. El resultado de la consulta es un listado de documentos por orden de relevancia y con una breve reseña de su contenido.
La utilización de uno u otro dependerá de las necesidades que se tenga. Los índices son muy buenos para tener un primer acercamiento a un tema. Cuando éste no se conoce o se tiene una ligera idea, sirven para recabar toda la información posible consultando a través de las categorías desde lo más general a lo más específico. Debido a que la actualización de los índices es muy lenta y se pueden obtener documentos obsoletos o direcciones que ya no existen, los motores servirían para actualizar la información que se tiene. Se utilizan para realizar consultas más específicas cuando se conoce los términos relevantes de un tema o se busca algo concreto5.

Sistemas de consulta
Hay tres formas:
Se debe tener en cuenta que la posibilidad de ruido documental es muy alta cuando se consulta en este tipo de buscadores que son de carácter general y almacenan todo tipo de información.
A partir de aquí se van a explicar las posibilidades de consulta que ofrecen estos buscadores tanto en la búsqueda simple como en la avanzada pero centrándonos más en las de esta última. Los ejemplos que se presentan más que ser operativos, sirven como modelo para explicar la sintaxis.
Utilización de los caracteres en las consultas
Algunos buscadores, como AltaVista, distinguen los caracteres, por lo que hay que tener cuidado con el uso que se puede hacer de ellos. Por ejemplo cuando se consulta por nombres de personas o instituciones que se pueden confundir con sustantivos comunes de objetos, animales, plantas, etc., la utilización de mayúsculas será de gran ayuda para eliminar el ruido. También hay que fijarse cuando se quiere buscar por términos que utilicen caracteres locales de los países, como es el caso castellano de los acentos y las ‘eñes’. Por ejemplo, AltaVista acepta los signos del conjunto ISO Latín-1, por lo que si se usa alguno, los reconocerá y localizará sólo las páginas que los contengan.
Por el contrario si se utilizan las equivalencias recuperará todos los documentos pertinentes. P. ej., si se desea localizar documentos que traten sobre “estadística”, “pañuelo” o sobre “Provença”, sólo se encontrarán aquellos que lleven estos mismos signos obviando los que, por no tenerlo en el teclado o cualquier otro motivo, contengan “estadistica”, “panuelo”, “Provenca” y que pueden ser interesantes.

El truncamiento
Esta técnica, que es muy útil y cómoda sobre todo en el caso de singular/plural y de términos derivados, la permiten AltaVista, Yahoo y Northern Ligth, y este último además ofrece la posibilidad de truncar por un solo carácter con el signo “%”. P. ej., si se quiere localizar documentos que traten sobre dietas, sin olvidar el singular, la frase de búsqueda sería: dieta% o dieta*. Otro ejemplo interesante sería localizar todas las páginas relacionadas con biblioteconomía, bibliografía, bibliometría, bibliotecología, etc., para lo que se podría poner biblio*ia.

Por último, en Lycos el truncado es automático. Recupera los plurales de los términos empleados en la consulta. Si no se quiere truncar una palabra, se le añade al final un punto.
Idioma y fecha de los resultados
Si se quiere que los resultados sean en una lengua determinada, AltaVista, Hotbot, Northern Ligth y Lycos disponen de una opción para poderla elegir. Hay que decir que esta opción no es del todo segura y suele presentar algunos errores.
Al igual que el caso anterior, si se necesita limitar temporalmente los documentos los únicos que lo permiten son AltaVista, Northern Ligth y Yahoo en la búsqueda avanzada, y Hotbot en ambas formas. Hay que aclarar que esta fecha es la de publicación en la Red o la de la última modificación de la página.

Ordenación de los resultados o ranking
En todos los buscadores estudiados los resultados aparecen ordenados automáticamente en función de la relevancia que el motor asigna a los documentos. Como se detalla en los artículos de Danny Sullivan12 y de Lluís Codina9, 10, ésta se calcula por medio de algoritmos que realizan “operaciones aritméticas y lógicas a gran velocidad. La base del cálculo de relevancia es el número de pares de atributos comunes entre la necesidad de información y los documentos, lo cual se traduce en la práctica en el número de palabras comunes entre cada documento y la pregunta”9.
«Los motores suelen usar para su funcionamiento un robot que automáticamente explora la Red en busca de documentos»
Estos algoritmos van desde los más sencillos, que realizan el cálculo de la frecuencia de aparición de las palabras en los documentos, a los más complejos, como los que asignan diferente peso o valor a los términos en función del lugar en que se encuentren dentro de la página (título, sumarios, primeros párrafos).
«Se han elegido estos buscadores porque son los más potentes del mercado y los más utilizados a nivel internacional»
En algunos buscadores, el usuario puede controlar este ranking y decidir qué documentos prefiere que se coloquen al principio. Utilizando las consultas avanzadas de Excite y Northern Ligth es posible ordenar en función de las URLs; Infoseek a través de las URLs y de las fechas; AltaVista en función de los términos de búsqueda que se coloquen en la caja de ranking; y Lycos según los dominios o influyendo en la importancia baja, media o alta de las palabras en la consulta según su lugar en la página, su frecuencia de aparición o cercanía de los términos.
P. ej., se quiere localizar documentos en AltaVista que traten de enfermedades infecciosas producidas por virus, bacterias, hongos o parásitos, pero interesan principalmente las producidas por los primeros, que se hayan publicado desde el año 1998. La frase de búsqueda sería: (enfermedad* near infeccios*) and (virus or bacteria* or hongo* or parasito*). En la caja de ranking se escribiría virus y en la caja de fecha de inicio 01/Jan/98. De esta manera, aparecerán primero los que traten de virus y después el resto.
Operadores de requerir o excluir
Estos operadores, denominados también de ausencia (-) y presencia (+), se utilizan en todos los buscadores para excluir o exigir la presencia de los términos en los documentos recuperados. Funcionan de manera parecida a los operadores booleanos “no” e “y”.
En Hotbot, Excite e Infoseek se pueden sustituir en la consulta avanzada por opciones de menú parecidas a must contain/ should contain/ must not contain. P. ej., se quiere encontrar páginas que traten de enciclopedias científicas pero que no sean diccionarios. La frase de búsqueda podría ser: cientific* +enciclopedia* -diccionario*.
Estos operadores no permiten agrupar términos, por lo que no funcionan con paréntesis.
Operadores booleanos
Los más usados son tres: “y”, “o” y “no”. Además, estos operadores, junto con los paréntesis que permiten agrupar términos, son unos poderosos aliados que sirven para precisar más la consulta.
El operador de intersección “y” encuentra todos los documentos que contengan los términos por los que se ha consultado, y el de unión “o” localiza los que tengan como mínimo alguno de los términos que se ha utilizado, lo que es muy útil para consultar por términos sinónimos o en varios idiomas. En algunos buscadores como Hotbot, Yahoo, y Lycos los sustituyen en su consulta avanzada por opciones parecidas a “all words” o “any words” en su menú.
El operador de exclusión “no” recupera documentos que no incluyan el término que se ha especificado. A veces debe escribirse “not” y a veces “and not”. Algebraicamente es lo mismo, siendo la forma dependiente del sistema. P. ej., para localizar documentos en AltaVista que traten simplemente de la edad de piedra y de bronce pero que no hablen de la edad de hierro, se utilizaría como frase de búsqueda: (“edad de piedra” or paleolitico or mesolitico or neolitico) and “edad de bronce” and not “edad de hierro”.
Frases exactas
Denominada también adyacencia estricta, permite consultar por varias palabras juntas y en el orden establecido por el usuario. Se puede utilizar en AltaVista y Northern Light, en ambas formas de consulta, escribiendo los términos entre comillas dobles. Hotbot, Infoseek, Yahoo, Excite y Lycos lo sustituyen en su consulta avanzada por la opción de menú exact phrase. Es muy útil si se conoce el título de obras o documentos, nombres de teoremas, leyes, hipótesis, objetos, personas, etc., o si se tiene la certeza de que una frase concreta forma parte de un documento.
P. ej., se quiere buscar los documentos que traten sobre El sí de las niñas de Leandro Fernández de Moratín, la teoría de la relatividad de Einstein, la tabla periódica de los elementos químicos o sobre la obra de Vincent van Gogh. En la caja de búsqueda se escribiría para cada consulta: “el si de las ninas”; “teoria de la relatividad”; “tabla periodica”; “Vincent van Gogh”.
Operador de proximidad
El operador de proximidad near sirve para buscar palabras que suelen ir juntas o separadas por pocos términos. Un ejemplo puede ser el de los nombres de personas en el mundo anglosajón que a veces colocan la inicial del apellido materno entre el nombre y el apellido.
Lycos es el único que permite limitar la proximidad a n palabras de distancia hasta un máximo de 25 (near/n) y ofrece variantes de este operador como “onear” donde el prefijo “o” indica que se busque manteniendo el orden especificado en la consulta, “adj”/”oadj” y “far”/”ofar”, que limitan a pocos términos y a partir de 25 de distancia respectivamente. Éstos y otros comandos son descritos en Referencia rápida de Opciones de búsqueda. También facilita sustituir estos operadores por opciones de menú del tipo “Todas las palabras (hasta 25 palabras, cualquier orden) / (hasta 25 palabras, en orden) en la consulta avanzada.
Hay que tener en cuenta que los operadores booleanos y de proximidad se deben escribir en mayúsculas en la mayoría de los buscadores.

AltaVista, en la consulta avanzada, lo permite con una separación máxima de 10 palabras entre los términos sin importar el orden. P. ej., se desea encontrar documentos que traten de la selección natural de las especies. La frase de consulta podría ser: “seleccion natural” near especies. Otro ejemplo sería: encontrar documentos que traten sobre John Fitzgerald Kennedy y Jacqueline Lee Bouvier Kennedy. Se podría escribir: (john near kennedy) and (jacqueline near kennedy).
Otras ayudas en la búsqueda
Tanto AltaVista como Excite proporcionan herramientas adicionales que facilitan la consulta. Sugieren una serie de términos que se generan automáticamente en función de la frecuencia de aparición de los mismos en las páginas recuperadas, para que de esta manera el usuario pueda añadir o excluir las palabras a la ecuación de búsqueda.
De ellos, el más llamativo es el de AltaVista, que tiene dos maneras de presentación de los términos:
Una posibilidad parecida es la que ofrecen Infoseek y Lycos, que permiten realizar una segunda consulta a partir de los resultados de la primera. Esta opción es la de Search within results para Lycos o Volver a consultar dentro de la búsqueda en el segundo buscador, y en las que los términos deben ser indicados por el usuario.
«En algunos buscadores el usuario puede controlar el ranking y decidir qué documentos prefiere que se coloquen al principio»
Por último, otras ayudas que presentan estos buscadores al lado de los documentos resultantes son las de Top... most visited sites o recommended links, que muestra los sitios más visitados o mejores en función de la consulta; more like this o find similar pages, que tomando como ejemplo esa página realiza una nueva búsqueda cuyo resultado será documentos de temática parecida al primero; y this site only, que presenta todas las páginas que se deriven de esa dirección y limitadas a la consulta.
Delimitadores
Todos los buscadores analizados, excepto Excite, no sólo permiten buscar en el contenido de los documentos, sino que además ofrecen la posibilidad de consultar por URLs o por los códigos que se utilizan en las páginas html, llamadas también etiquetas, para determinar hiperenlaces, imágenes, sonidos y otras aplicaciones mediante los denominados delimitadores.
Hay dos formas de utilizarlos. La primera, como en AltaVista: escribiendo el comando seguido de dos puntos y el texto por el que se consulta sin espacios en blanco (ver tabla de delimitadores); o seleccionando la opción más adecuada de un menú que el propio buscador facilita, como es el caso de Hotbot, Excite, Lycos y Northern Light, en su búsqueda avanzada.
Algunos de los delimitadores que utiliza AltaVista son:
Conclusión
Como se observa en la tabla de comparación de posibilidades, entre estos buscadores existen bastantes similitudes en materia de truncamientos, frases exactas, operadores de requerir/excluir y operadores booleanos. En las otras posibilidades que ayudan en la consulta hay más diferencias, pero hay que destacar que:
Por último hay que comentar que la mayoría de estos buscadores facilita mucho las posibilidades de consulta creando interfaces amigables donde estas opciones se eligen a partir de menús.
Notas
1. Senso, José A. “Herramientas para realizar búsquedas en internet: una revisión”. En: IWE, vol. 7, n. 1-2, enero-febrero, 1998, pp.24-25.
2. Sullivan, Danny (ed.). Search engine reviews chart.
http://searchenginewatch.com/reports/
reviewchart.html
3. Sullivan, Danny (ed.). Search engine sizes.
http://searchenginewatch.com/reports/sizes.html
4. Díez Ferreira, Miguel A. “Los mejores buscadores”. En: iWorld, n. 9, 1997.
http://www.idg.es/scripts/bbdd/articulos/
iworld/ShowID.idc?idc.ID=28873
5. Díez Ferreira, Miguel A. “Los secretos de los buscadores: qué son y cómo funcionan”. En: iWorld, n. 9, 1997.
http://www.idg.es/scripts/bbdd/articulos/
iworld/ShowID.idc?idc.ID=28872
6. Cohen, Laura. Searching the internet: recommended sites and search techniques.
http://www.albany.edu/library/internet/
search.html
7. Martín López, F. J; [et al.]. Internet para investigadores. Huelva: Servicio de publicaciones de la Universidad de Huelva, 1997.
8. Ibáñez, Álvaro. “Índices y buscadores en internet”. En: PC World, n. 126, 1996.
http://search.idg.es/busquedas/
detalle.asp?Revista=pcworld&Id=36007
9. Codina, Lluís. “Cómo funcionan los servicios en internet: un informe especial para navegantes y creadores de información (I)” En: IWE, v. 6, n. 5, mayo 1997, pp.22-27.
10. Codina, Lluís. “Cómo funcionan los servicios en internet: un informe especial para navegantes y creadores de información (II)”. En: IWE, v. 6, n. 6, junio 1997, pp. 18-26.
11. Sullivan, Danny (ed.). How search engine works.
http://searchenginewatch.com/workengine.html
12. Sullivan, Danny (ed.). How search engine rank web pages.
http://searchenginewatch.com/rankengine.html
Bibliografía
Barker, Joe (ed.). Constructing and refining searches in Northern Light: detailed searching instructions.
http://www.lib.berkeley.edu/TeachingLib/
Guides/Internet/NorthernLight.html
Barker, Joe (ed.). Constructing and refining searches in AltaVista Advanced Search: detailed searching instructions.
http://www.lib.berkeley.edu/TeachingLib/
Guides/Internet/AltaVista.html
Barker, Joe (ed.). Constructing and refining searches in Excite: detailed searching instructions.
http://www.lib.berkeley.edu/TeachingLib/
Guides/Internet/Excite.html
Barker, Joe (ed.). Constructing and refining searches in Hotbot: detailed searching instructions.
http://www.lib.berkeley.edu/TeachingLib/
Guides/Internet/Hotbot.html
Barker, Joe (ed.). Constructing and refining searches in Infoseek: detailed searching instructions.
http://www.lib.berkeley.edu/TeachingLib/
Guides/Internet/Infoseek.html
Barker, Joe (ed.). Constructing and refining searches in LycosPro: detailed searching instructions.
http://www.lib.berkeley.edu/TeachingLib/
Guides/Internet/Lycos.html
Barker, Joe (ed.). How and When to use Yahoo!: Detailed searching instructions.
http://www.lib.berkeley.edu/TeachingLib/
Guides/Internet/Yahoo.html
Barker, Joe (ed.). How to choose the search tools you need.
http://www.lib.berkeley.edu/TeachingLib/
Guides/Internet/ToolsTables.html
Evaluation of selected internet search tools.
http://www.library.nww.edu/resources/
internet/search/evaluate.html
Hock, Ran. “How to do field searching in the web serarch engines. A field trip”. En: Online, 1998, mayo/junio, pp. 18-22.
Lawrence, Steved y Giles, C. Lee. September 1998 search engine coverage update.
http://www.neci.nj.nec.com/homepages/
lawrence/websize98.html
Notess, Greg R. Review of AltaVista. [1999].
http://www.notess.com/search/features/av.html
Notess, Greg R. Review of Excite. [1999].
http://www.notess.com/search/features/
excite.html
Notess, Greg R. Review of HotBot. [1999].
http://www.notess.com/search/features/
hotbot.html
Notess, Greg R. Review of Infoseek. [1999].
http://www.notess.com/search/features/
infoseek.html
Notess, Greg R. Review of Northern Light. [1999].
http://www.notess.com/search/features/nlight.html
Notess, Greg R. Review of Yahoo! [1999].
http://www.notess.com/search/features/
yahoo.html
Notess, Greg R. Search engine features chart: search engine comparison. [1999].
http://www.notess.com/search/features/
Notess, Greg R. Search engine statistics.
http://www.notess.com/search/stats/
Notess, Greg R. Review of Lycos. [1999].
http://www.notess.com/search/features/lycos.html
Search engine comparison chart.
http://www.kcpl.lib.mo.us/search/
srchengines.htm
Sullivan, Danny (ed.). Search engine features chart.
http://searchenginewatch.com/webmasters/
features.html
Winship, Ian. Web search tool features.
http://www.unn.ac.uk/features.htm
Agustín Montes Hernández
amontesl@nexo.es
Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1999/marzo/posibilidades_de_consulta_en_los_buscadores.html