El profesional de la información


Junio 1997

Cómo funcionan los servicios de búsqueda en Internet: un informe especial para navegantes y creadores de información (Parte II)

Por Lluís Codina

La primera parte de este artículo se publicó en el anterior número de IWE, vol. 6, nº 5, mayo de 1997, pp. 22, 24-27.

La ideología de los robots

Buena parte de esa limitación proviene de factores, digamos ideológicos, antes que de factores estrictamente técnicos. El primer factor ideológico consiste en la creencia ciega en el método que se utiliza para el cálculo de relevancia que aplican estos servidores y que sirve para la ordenación de los documentos recuperados. El segundo, en la consideración del usuario final como un analfabeto tecnológico.

Search es un meta-buscador (meta-searcher) de C|Net que ofrece acceso a diversos robots de búsqueda, además de un directorio

Examinemos la primera cuestión. En general, para estimar si un documento es relevante, el sistema examina (consultando el fichero invertido) en qué documentos aparecen todas o alguna de las palabras que ha utilizado el usuario para expresar su necesidad de información y, para ello, se limita a comparar cadenas de caracteres en la mayoría de los casos. Así, si un usuario solicita documentos sobre "inflación", seleccionará sólo los documentos que contengan esa misma cadena de caracteres y, en general, ignorará los que contengan otras cadenas, por ejemplo, "aumento de precios".

Por otro lado, seleccionará aquellos que contengan la cadena mencionada ("inflación") aunque el término esté siendo utilizado de forma metafórica o fuera del contexto de la economía, por ejemplo, en un documento sobre la creación del universo donde se hable de la gran inflación inicial que siguió al big bang.

WebCrawler es fácil de utilizar, quizás el más fácil, rápido y potente, pero es el que menos páginas de Internet indiza

Pese a su inmensa popularidad, Yahoo no es un buscador, sino un directorio jerárquico con facilidades de búsqueda

Sea como fuere, una vez identificados los documentos potencialmente relevantes, cuantas más veces aparezcan las palabras de la pregunta en un documento, tanto más relevante será considerado y tanto más alto será el lugar que ocupe en el ranking que se entrega al usuario

Ahora bien, la confianza ciega en el procedimiento de ordenación lleva a la super simplificación del lenguaje de interrogación. La idea de base es la siguiente: no importa que los usuarios no puedan expresar sus necesidades de información con demasiado detalle, ya que sólo tienen que entrar las palabras o las frases que la expresan, sin preocuparse de relacionarlas entre sí.

Si es necesario, el usuario puede entrar cuantos sinónimos desee del mismo término, para asegurarse de que no pierde ningún documento relevante. Así, aunque el sistema recupere decenas de miles de documentos, el sistema de ordenación se encargará de colocar los más relevantes primero. De este modo, sólo tienen que mirar los 10 ó 20 primeros documentos. ¿Qué más da, entonces, que la escasa sofisticación del método de interrogación arroje miles de documentos como resultado de una búsqueda cada vez?

Hasta aquí la idea. La realidad es muy otra. En primer lugar, lo cierto es que, como es bien sabido, la mera repetición de un término está lejos de ser un indicio fiable de la relevancia de un documento. A algunos autores, particularmente los que mejor escriben, les molesta repetir la misma palabra repetidas veces y prefieren utilizar sinónimos. La riqueza de su vocabulario puede ser entonces un factor de penalización que relegue el documento a los últimos puestos del ranking.

Además, interfiere también la vaguedad del lenguaje natural con el fenómeno de las homónimas, por el cual una misma palabra sirve para designar referentes distintos. Por último, son frecuentes también las falsas coordinaciones. Que un documento contenga las palabras "autopistas" e "información" no significa necesariamente que trate sobre "autopistas de la información". Quizá habla de la señalización de tráfico.

Olé es uno de los primeros buscadores españoles. Además de un servicio de recuperación proporciona un directorio. Fácil de usar, pero no presenta opciones avanzadas, al igual, por cierto, que los demás buscadores españoles

Ozú, otro de los buscadores españoles en Internet. Obsérvese el icono (añadir) que invita a los administradores de ubicaciones web a enviarle sus datos

Por si lo anterior fuera poco, sucede que algunas necesidades de información no se pueden expresar con la simple yuxtaposición de palabras en el cajetín de un buscador, sin operadores booleanos en medio. Es necesaria alguna forma de sintaxis entre ellas para representarla bien. Por ejemplo, con la mera escritura una a continuación de la otra de la pareja de palabras "cine" y "literatura" como expresión de una necesidad de información es imposible saber si:

a.-el usuario busca documentos que relacionen cine y literatura y, por tanto, documentos donde aparezca "cine" tanto como "literatura", lo que se suele expresar con un and lógico;

b.-documentos que traten o bien sobre cine o bien sobre literatura y, por tanto, documentos donde aparezca o "cine" o bien "literatura" o ambas, idea que se suele expresar con un or lógico.

Por defecto, los buscadores de Internet interpretan siempre la presencia de dos o más palabras como en el caso b), es decir, como una operación que involucra un or lógico.

De este modo, y en el ejemplo de la pareja "cine" y "literatura", un sistema de búsqueda típico entregará centenares o miles de documentos como respuesta. Los primeros serán aquellos donde más veces aparezca alguna de las dos palabras. Supongamos que, en realidad, el usuario deseaba la opción "a". Pues bien, no tiene ninguna garantía de que entre los 10 primeros esté esa clase de documentos.

Peor lo tiene todavía el usuario si tiene la osadía de estar interesado por el cine y el teatro y por la relación de ambos medios con la novela y el ensayo, pero solamente en lo referido a obras de autores españoles y sudamericanos, por ejemplo. ¿Cómo diablos se puede expresar esa necesidad de información simplemente escribiendo esas palabras sin más?

Aunque no tiene el lenguaje más potente, HotBot es, en cambio, el que ofrece mejores opciones y criterios de selección para filtrar resultados, como la fecha de los documentos o la clase, etc.

Funciones avanzadas

No es difícil, pese a todo, encontrar en algunos servidores de búsquedas alguna forma de interrogación más avanzada que la mera yuxtaposición de palabras, aunque permanecen semi-ocultas, probablemente para no intimidar al usuario. Con las formas de interrogación avanzadas es más fácil convertir necesidades de información en preguntas bien planteadas. Pese a todo, ninguna de las interfases de usuario actuales de los buscadores de Internet permite plantear preguntas con toda la eficacia necesaria.

Por ejemplo, la necesidad de información indicada anteriormente es imposible de plantear en muchos de los servidores. El hipotético usuario interesado en ese tema deberá conformarse con plantear alguna versión débil de su pregunta, en concreto con versiones ligadas a alguna de las muchas estructuras superficiales con las que puede expresarse esa necesidad de información.

Necesidades de información no mucho más complicadas, por ejemplo, que involucren el cruce lógico, con un and, de tres o más conceptos, cada uno de los cuales contenga tres o más sinónimos son imposibles de plantear.

Lo peor del caso es que tanto la tecnología como el know-how que permiten tratar adecuadamente esa clase de necesidades de información en el contexto de un sistema de recuperación de información son conocidas desde hace, por lo menos, un par de décadas.

En cualquier caso, con mayor o menos acierto, las clases de búsqueda que están disponibles en los diferentes robots de Internet son las siguientes: simple, de proximidad, booleana, booleana con paréntesis y búsqueda por ostensión. Ahora bien, que todas estas clases de búsqueda estén presentes en la suma de todos los servidores no significa que cada servidor las tenga todas. Vamos a examinar sus características típicas.

Cómo se mide el rendimiento en RI: precisión y llamada

Para medir el rendimiento de un sistema de RI, se utilizan dos medidas básicas, que se pueden expresar en tanto por ciento, y que son la tasa de precisión y la de llamada (precision y recall en inglés). Para esta exposición hemos seguido la excelente obra de Losee (ver bibliografía) pero el método está muy bien documentado también en los trabajos de Salton y en numerosos manuales de RI (*).

En concreto, para este cálculo y ante el resultado de una operación de RI, el número total de documentos relevantes que contiene el sistema, recuperados o no, se denota con R; el número de documentos relevantes recuperados, con r. El número de documentos no relevantes, recuperados o no, se denota con N, y el de no relevantes pero recuperados, con n.

Entonces, a partir de las definiciones precedentes, la precisión se puede calcular así:

precisión = (r/r+n) x 100 = %

La precisión mide, pues, la calidad del conjunto de documentos recuperados. Por ejemplo, si se han recuperado 10 documentos, y sólo tres son relevantes, tenemos que la proporción de relevancia es de un 30%.

Por su parte, la llamada (o recordación) se define así:

llamada = (r/R) x 100 = %

La llamada mide la eficacia de recuperación y, en concreto, el porcentaje de documentos relevantes recuperados respecto del total existente en el sistema. Por ejemplo, si se han recuperado 10 documentos, pero en el sistema existen 20 documentos relevantes, la tasa de llamada es del 50%.

Siempre es posible medir la precisión, aunque no sea fácil definir de modo operativo el concepto de relevancia; pero es difícil, a veces imposible, obtener el valor exacto de R, así que, para medir la llamada, se usan estimaciones. Por ejemplo, una vez efectuadas las pruebas, se lanzan oleadas de búsquedas cada vez más exhaustivas, procurando utilizar todos los sinónimos de los términos empleados en el test, hasta que se tiene la razonable seguridad de que se han obtenido todos los documentos relevantes respecto a esos términos y se conoce, por tanto, R, o una buena aproximación a R. Este es el conocido método de Cyril Cleverdon de las (como mínimo) tres búsquedas de precisión decreciente.

Otro aspecto importante de estas medidas es que en un sistema óptimo de RI, su suma debería dar un 200% (= 100% de precisión + 100% de relevancia). El problema es que, de hecho, no se conoce ningún sistema de información no trivial que, en la práctica, alcance el 200%, aunque en teoría tal cosa no esté prohibida. Así que siempre hay algo de ruido o de pérdida de información en una operación de RI. Para peor, con frecuencia, si se quiere optimizar la precisión, se deteriora la tasa de llamada y al revés, por lo cual, en la práctica, se debe elegir entre mucha precisión y poca llamada o al revés, ya que no es posible optimizar ambas a la vez.

Esto último lo habrán experimentado de modo intuitivo muchos internautas. Si quieren estar seguros de encontrar todos los documentos que traten sobre un tema determinado, por ejemplo, de "archivos de cine", y han utilizado muchos sinónimos y cuasi-sinónimos, por ejemplo: "cine", "cinema", "film", "séptimo arte", etc., combinados con un or booleano implícito o explícito, el precio a pagar es una lista inmensa de ubicaciones web. Si se desea, por el contrario una buena tasa de precisión, utilizarán ecuaciones de búsqueda diseñadas mediante dos o tres palabras unidas con un and booleano, por ejemplo: "cine AND films AND archivos". Se obtendrá así una lista mucho más reducida, pero seguramente se habrá perdido información.

(*) A propósito del recall inglés hay que indicar que su exacta traducción al español resulta difícil. Muchos autores han optado por "exhaustividad", pero es evidente que esta palabra no tiene el sentido original de "hacer patente, destacar o resaltar la información buscada, separándola del resto". Creemos que "llamada", y quizá aún más "recordación" son traducciones más fieles.

Preguntas simples

Las búsquedas simples incluyen las búsquedas de palabras y de frases sin relación entre ellas. Son las opciones que los robots ofrecen por defecto.

Esta opción permite al usuario especificar al sistema la(s) palabra(s) o la frase que expresa la necesidad de información sin tener que relacionarlas entre ellas, según hemos comentado antes. Por ejemplo, si estamos interesados en localizar ubicaciones web relacionadas con el cine, entraremos simplemente la palabra "cine".

Este método admite el uso de sinónimos. Por ejemplo, si queremos asegurar una alta tasa de exhaustividad o llamada, podemos acumular cuantos sinónimos y cuasi-sinónimos se nos ocurran. Por ejemplo, podemos entrar en la caja de diálogo correspondiente la siguiente pregunta (en lo que sigue, y para los ejemplos, obviaremos el problema de la lengua):

cine, films, películas

donde las comas actúan como separadores de términos y que, internamente y de manera transparente al usuario, producirá la siguiente ecuación booleana:

cine OR films OR películas

Con este planteamiento, el sistema de consulta buscará los documentos que contengan una, dos o la totalidad de las palabras de búsqueda.

Por su parte, la pregunta tipo frase admite una doble interpretación. Por un lado, en RI una frase es cualquier palabra compuesta, no una frase gramatical. Por ejemplo, "juegos olímpicos" es una frase en RI aunque no sea una frase gramatical. Así, si entramos la siguiente búsqueda:

frase = "juegos olímpicos"

donde las comillas delimitan una frase, el sistema sabe que debe buscar documentos que contengan la cadena:

juegos[espacio]olímpicos

y en ese mismo orden, y no los que contengan uno de los dos trozos de la cadena: "juegos" u "olímpicos" o ambos, pero que estén en un orden distinto.

La segunda interpretación de la búsqueda por frases coincide con la intuitiva, y algunos servidores de búsquedas animan a los usuarios a entrar auténticas frases en lenguaje natural, del estilo:

salas de cine en París

o incluso

qué servidores proporcionan información sobre salas de cine en París

Ahora bien, ambas posibilidades son engañosas y no suelen resultar recomendables. Lo que hace el sistema de búsqueda ante frases como éstas es eliminar las palabras vacías y operar con las restantes, combinándolas con un or booleano. Por ejemplo, de la primera de las frases anteriores, un robot de búsqueda eliminará probablemente "de" y "en" (recuerden que estamos obviando la cuestión del idioma) y creará la ecuación:

salas OR cine OR París

Con semejante ecuación es posible que el sistema entregue el resultado deseado, pero también es muy posible que no sea así. De hecho, la operación puede dar resultados desconcertantes si la base de datos en cuestión no tiene definidas, por ejemplo, las palabras "de" o "en" como palabras clave, o si el cálculo de relevancia lleva a situar delante a los documentos que tratan de cine y a los que tratan de París, pero desde cualquier punto de vista menos el de "salas de cine en París".

Con el segundo ejemplo, el resultado será aún más incontrolable y tanto más desconcertante, ya que la ecuación resultante tendrá esta forma:

servidores OR información OR proporcionan OR salas OR cine OR París

con lo cual el usuario puede tener que vérselas con una inmensa lista de documentos relacionados con ordenadores y con sistemas operativos, en lugar de salas de cine, a causa de la falsa coordinación provocada por las palabras "servidores" e "información". Así, pues, es recomendable olvidar esta opción por mucho que presuman de ella los robots en su propaganda.

Proximidad

En la búsqueda por proximidad, en cambio, el usuario puede exigir que sólo se consideren relevantes los documentos que contengan ambas palabras y que éstas estén en el mismo párrafo (near) o que no estén separadas por más de n palabras (w/n). Por ejemplo, si se buscan servidores sobre fotografías de prensa, se podrían formular búsquedas como las siguientes para evitar falsas coordinaciones de documentos que hablen de fotografía, pero no de prensa, o de prensa, pero no de fotografía:

fotografía [near] prensa

o bien

fotografía [w/5] prensa

Búsquedas booleanas y paréntesis

Esperamos haber demostrado que, pese a toda la propaganda sobre las búsquedas en lenguaje natural y la eficacia de los algoritmos de relevancia, el uso de operadores booleanos sigue siendo necesario para poder expresar algunas necesidades de información.

Por ejemplo, para volver al experimento mental anterior, supóngase que un usuario necesita localizar documentos que relacionen el cine y la literatura. Esta clase de relaciones sólo puede expresarse utilizando al completo el álgebra de Boole y, por tanto, obviando el método básico, que sólo utiliza el operador or y transformando esa necesidad de información en una ecuación booleana como la siguiente:

cine AND literatura

donde ya no hay ninguna ambigüedad sobre qué quiere el usuario. Por otro lado, es frecuente que éste necesite utilizar más de un operador de Boole, en cuyo caso, para evitar otro tipo de ambigüedades, es imprescindible utilizar paréntesis que acoten el alcance de cada operador.

Por ejemplo, supongamos un usuario interesado en localizar información sobre la desregulación de los servicios de telecomunicaciones en Europa y Estados Unidos. Si quiere garantizar una alta precisión y, al mismo tiempo, una tasa razonable de llamada, sólo podrá intentarlo con una ecuación de búsqueda más o menos de la forma siguiente:

(desregulación OR privatizaciones OR monopolios) AND (telecomunicaciones OR telemática OR audiovisuales OR PTT OR operadoras) AND ("Estados Unidos" OR USA OR EEUU OR Europa OR EU OR CE)

Sin embargo, una ecuación como la precedente es imposible de ejecutar en los servidores de búsqueda actuales, por lo menos en los que se mencionan en este informe, que son también los más populares. En concreto no es posible expresar directamente esa ecuación en ellos, ni es posible combinar resultados de búsquedas anteriores, ni ver la historia de la búsqueda, etc.

Por último, la recuperación por ostensión o realimentación, también llamada query by example (aunque no tiene nada que ver con el query by example de los sistemas relacionales, sin embargo) funciona indicando al sistema un documento modelo, en lugar de expresar una necesidad de información, de manera que lo que se pide al sistema es que busque más documentos como el señalado en lugar de presentarle una frase o una ecuación de búsqueda.

La búsqueda por ostensión se hace con una primera lista de documentos recuperados de modo convencional. Si encontramos que alguno de ellos es especialmente representativo, lo indicamos al sistema para que éste extraiga las palabras más significativas del mismo (las que ocurren un mayor número de veces) y busque otros documentos donde aparezca un patrón parecido de palabras. Su eficacia es tremendamente variable, por lo que puede funcionar estupendamente bien o catastróficamente mal. Lo peor de ella es que su cálculo es complicado, genera una lista inmensa de documentos y la respuesta, por tanto, puede hacerse esperar bastante.

Principales buscadores

La lista de robots y de servicios de búsqueda y recuperación de información en Internet es asombrosamente larga y no para de crecer. En el momento de realizar este artículo se podían contabilizar unos 230 solamente en Estados Unidos. Pero al ritmo que se producen las novedades en este tema, para cuando se publique este artículo es probable que se hayan añadido una docena más. Suponiendo que haya, por lo menos, otros veinticinco o treinta en Europa, el parque mundial de robots de Internet podría estar cercano a los 300.

Sea como fuere, de esos 300 hipotéticos robots, media docena de ellos concentra el 90% de la utilización, tanto por razones de eficacia, como por la amplitud de su cobertura. Aunque puede haber discrepancias según los observadores, entre los que se indican a continuación se encuentran sin duda los tres o cuatro más utilizados internacionalmente:

  • AltaVista: http://www.altavista.digital.com
  • Excite: http://www.excite.com
  • HotBot: http://www.hotbot.com
  • Lycos: http://www.lycos.com
  • OpenText: http://www.opentext.com

Dadas sus características, el buscador aparentemente más equilibrado es AltaVista, ya que realiza una cobertura casi exhaustiva de la Red y además es uno de los que mayor número de opciones de búsqueda ofrece, incluyendo operadores booleanos y paréntesis.

Después de utilizar AltaVista es recomendable utilizar por lo menos uno o dos más si se quiere estar seguro de que se ha explorado toda la Red. El candidato siguiente podría ser OpenText, seguido de Excite o HotBot.

A todo esto, el lector puede estar preguntándose del porqué de tanta generosidad por parte de las empresas que ponen en marcha los servidores de búsqueda, ya que suele ser un servicio gratuito. La respuesta es sencilla. Todas ellas buscan o bien prestigio tecnológico y, por tanto, aumento de su cuota de mercado, o bien captación de anunciantes, lo que reduce ambas opciones a una sola: la publicidad. Por el momento, parece que la publicidad es suficiente para mantenerlos como servicio (aparentemente) gratuito e, incluso, en dura pugna entre ellos, por lo que no podemos descartar que muy pronto, quizás cuando estas líneas se publiquen, algún servidor haya mejorado su lenguaje de interrogación para ganar usuarios. De hecho, sería deseable que alcanzaran tan sólo el nivel que desde hace más de una década tienen sus primos hermanos los distribuidores de información en línea en modo ascii, como Dialog o Data Star.

España

En cuanto a España, existe también una pequeña lista de buscadores especializados en ofrecer información sobre documentos publicados o bien por servidores web españoles o bien por servidores que incluyen documentos en castellano o en alguna de las lenguas autonómicas. Su ventaja respecto a los anteriores no radica, necesariamente, en que sean más exhaustivos sobre España, sino en que evitan mucho ruido, ya que limitan su búsqueda a servidores españoles, por ejemplo, lo cual sólo es una ventaja si, efectivamente, sólo se desea buscar entre ellos. Por contra, ninguno de ellos ofrece modos de búsqueda avanzada.

Los más importantes son los siguientes:

  • Dónde: http://donde.uji.es
  • Olé: http://www.ole.es
  • Fantástico: http://www.fantastico.es
  • Ozú: http://www.ozu.es
  • El inspector de Telépolis: http://www.telepolis.com

Finalmente, cabe señalar que han surgido algunas ubicaciones web que actúan como meta-buscadores, es decir, que actúan como pasarelas a los buscadores más conocidos. Un ejemplo de uno de los más populares de estos meta-buscadores es el servidor de C|Net (escrito en su logotipo con la barra vertical):

http://www.search.com

Cómo conseguir que nos encuentren

Situémonos ahora del otro lado de la relación cliente/servidor. A la vista de lo anterior, ¿cómo podemos conseguir que nuestra ubicación obtenga un alto lugar en el ránking de los servidores de búsqueda de Internet?

Los pasos que deberían darse son los siguientes:

Primero: naturalmente, registrarnos por lo menos en los cinco o seis buscadores internacionales más importantes y en alguno o en todos los buscadores nacionales, rellenando en línea los impresos correspondientes que cada buscador ofrece como parte de su menú. Existen varios servidores que ayudan a realizar esas inscripciones. En concreto, pueden enviarse a ellos los datos de nuestra ubicación y se encargan de trasladarla a los indizadores más importantes. Uno de los más conocidos es Submit-It

http://www.submit-it.com

Segundo: utilizando juiciosamente el elemento <title> de la sección <head>. Es conveniente no dejar nunca de usar esa etiqueta. Algunos programas de edición de documentos html advierten sobre ello, pero otros no y, en todo caso, es fácil olvidarlo ya que el contenido de <title> no forma parte del texto del documento, sino que es el título que aparece en la cabecera del navegador. Sin embargo, la información contenida en ese elemento es un indicador de contenido de primer orden para los motores de análisis e indización.

Tercero: colocando información significativa en el elemento <title>. Por ejemplo, si nos llamamos Fulano de Tal y nuestra ubicación está dedicada a la Historia del cine en España, un título adecuado será <title>Historia del cine en España de Fulano de Tal</title> y no, por ejemplo: <title>La home page de Fulano de Tal </title>, que nada indica sobre el contenido.

Cuarto: redactando con cuidado la primera página de manera que los párrafos iniciales contengan exactamente las palabras clave adecuadas, incluyendo sinónimos. Además, no es mala idea redactar al principio una cabecera <h1> exactamente con el mismo texto que el elemento <title>.

Quinto: cabe observar que los gráficos no se indizan ni tampoco el texto que contienen, por lo menos de momento, de manera que, si la primera página sólo contiene gráficos, por ejemplo menús en forma de gráficos, la página puede quedar mal representada.

Sexto: no es recomendable, en cambio, utilizar la triquiñuela consistente en redactar un primer párrafo ficticio dónde se repitan abundantemente algunas palabras. En primer lugar, no es ético. Un documento debería alcanzar una alta puntuación porque realmente trate sobre un tema determinado, no porque contenga un párrafo con una misma palabra repetida numerosas veces. En segundo lugar, porque algunos servidores de búsqueda afirman ser capaces de detectar y penalizar esas prácticas, así que podría salir el tiro por la culata.

Séptimo: utilizando el elemento <meta>, dentro de la sección <head> para añadir palabras clave <keywords> al documento. Algunos servidores de búsquedas afirman utilizar esa información para indizar la Red y añaden más peso a los términos que aparecen en esa sección.

Octavo y último: se supone que las ubicaciones web sirven para publicar y para facilitar la navegación de la información. Es una buena práctica incluir enlaces a otras páginas similares. Además, algunos servidores de búsqueda valoran positivamente el número de enlaces que parten de una ubicación, lo que a veces se denomina su grado de luminosidad. Ello puede servir para que otras mantengan enlaces, a su vez, con esa ubicación, lo que se denomina su grado de visibilidad. Tanto la luminosidad como la visibilidad acaban influyendo positivamente en el número de accesos que se reciben, que es de hecho lo que se pretende si se publica en Internet.

Cómo evitar que nos encuentren

La gran abundancia de robots que buscan documentos para indizar la Red ha creado problemas en el pasado a algunos administradores de web. En particular, parece ser que de los numerosos robots existentes, muchos de ellos funcionaban con algoritmos poco eficientes, que les obligaban a visitar la misma ubicación una y otra vez para obtener la información, contribuyendo así a la saturación del servidor.

A este problema se unió la necesidad de preservar determinados directorios de la curiosidad de los robots y de mantener, sin embargo, su contenido accesible a través de la Red. Finalmente, algunas páginas contienen una información cuya indización no tiene sentido, etc. Por todas esas razones, existe un protocolo o norma de exclusión de robots que sirve para indicar a éstos si son bien recibidos o no en el sitio y, en todo caso, para indicarles qué páginas pueden indizar y cuáles no. Este protocolo fue propuesto por Martijn Koster en 1994 en un documento denominado The standard for robot exclusion, que puede consultarse en Internet (ver bibliografía).

Así, si el administrador de un web desea que todos o parte de sus documentos no sean indizados puede utilizar ese protocolo de exclusión para indicarlo. Los robots que cumplen el protocolo (nunca mejor dicho) leen un documento creado por el administrador donde se especifican las exclusiones antes de iniciar la indización de una ubicación. Este documento es un archivo de texto donde se especifica la política de la ubicación sobre los robots: si son o no bien venidos y qué archivos y directorios pueden ser indizados. Por su lado, los programadores de tales robots son invitados a incorporar en sus robots una instrucción para leer esos archivos y respetar sus exclusiones. En este sentido, existen direcciones web donde se proporciona información sobre dichos programas (ver bibliografía).

Bibliografía

Cheong, F. C. Internet agents: spiders, wanderers, brokers and bots. Indianapolis: New Riders, 1996.

Codina, L. El llibre digital: una exploració sobre la informació electrònica i el futur de l´edició. Barcelona: Generalitat de Catalunya. Centre d´Investigació de la Comunicació, 1996.

Codina, L. "Publicación digital y representación del conocimiento". Quark, octubre-diciembre 1995, pp. 33-43.

Eager, W. et al. Net.search. Indianapolis: Que, 1995.

García, F. J.; Tramullas, J. World Wide Web: fundamentos, navegación y lenguajes de la red mundial de información. Madrid: Ra‑Ma, 1996.

Gilster, P. Finding it on The Internet. New York: John Wiley, 1996.

Koster, M. "A standard for robot exclusion" Nexor Corp. http://www.nexor.co.uk/mak/doc/robots/norobots.html.

Losee, R. M. The science of information. San Diego: Academic Press, 1990.

Salton, G.; McGill, M. J. Introduction to modern information retrieval. New York: McGraw‑Hill, 1983.

Williams, J. et al. Bots and other Internet Beasties. Indianapolis: Sams.Net, 1996.

Lluís Codina

codina_lluis ARROBA fcsc.upf.es

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1997/junio/cmo_funcionan_los_servicios_de_bsqueda_en_internet_un_informe_especial_para_navegantes_y_creadores_de_informacin_parte_ii.html