El profesional de la información


Marzo 1994

Dialog presentó su target

Por Tomàs Baiget

En el pasado International Online Information Meeting (Iolim) de Londres, varios distribuidores de bases de datos online mostraron sistemas de búsqueda basados en la relevancia, con la posibilidad de plantear las preguntas usando lenguaje natural. Pero, ¿qué significan estos cacareados términos?

Desde hace años se habían ido viendo sistemas experimentales de recuperación de información cuyas búsquedas no se basaban exclusivamente en los operadores booleanos (unión, intersección y negación). Por ejemplo, se han diseñado sistemas a los cuales se les puede indicar: "Estas 5 referencias son interesantes: busca en la base de datos otras similares". O bien: "Haz una búsqueda teniendo en cuenta que el término A tiene una importancia de 8, el B una importancia de 5 y los C y D una importancia de 2 cada uno".

Algunos se basan en buscar co-ocurrencias de términos y otros en contar la frecuencia de aparición de los mismos, inspirándose en el sistema Smart de Gerard Salton (v. IWE-20, p. 8).

Su ámbito de aplicación se reducía generalmente a los microordenadores, gracias a su flexibilidad para programarlos, aunque antes también muy limitados por su escasa capacidad.

Después de graduales pasos en los últimos 6 años de los grandes mastodontes de la distribución online de bases de datos basados en mainframes (p. ej. implementación de zoom en Esa‑Irs o rank en Dialog, hyperline seguido de easyQuest en Esa‑Irs, un sistema mixto de menús y análisis de frecuencias en Dimdi, focus en Data‑Star, etc.), por fin se ofrecen al público, especialmente al "no profesional", herramientas de búsqueda ya muy perfeccionadas. Uno se extraña de que hayan tardado tanto, pero es que la programación en los grandes cacharros parece que es realmente farragosa.

Este año han aparecido freeStyle del host americano Mead Data Central [especializado en prensa (Nexis) y legislación (Lexis) en texto completo], y target (objetivo o blanco) del host Dialog. FreeStyle deriva del sistema WIN Westlaw‑is‑natural, en uso en el host americano Westlaw.

Ambos son sistemas cuya entrada de los términos de búsqueda es en "lenguaje natural", es decir, sin necesidad de escribir símbolos de instrucciones ni ceñirse necesariamente a un thesaurus. Este último es siempre aconsejable, pero en esos sistemas se hace más prescindible puesto que, a diferencia de los sistemas clásicos en los que se tiende a basar las búsquedas en las zonas de "alta densidad de significado", como pueden ser los títulos y los descriptores, esos sistemas las hacen mejor en los textos completos o en los resúmenes largos.

Se dice que no se basan en búsquedas booleanas, pero en el fondo sí hay intersecciones. Las hay de todos con todos los términos, lo que pasa es que además el sistema cuenta las veces en que aparecen en cada registro, y luego ordena estos registros, presentando en primer lugar los mas "relevantes", los que contienen más veces los términos de búsqueda entrados.

La redacción de IWE ha realizado la siguiente búsqueda utilizando target en la base de datos ABI/Inform de Dialog. El tema escogido ha sido: "Influencia de las nuevas tecnologías de la información en el desempleo"

En ésta y en algunas otras consultas se ha podido observar que, efectivamente, target funciona muy rápido y que en cuanto a calidad, los resultados pueden sorprender hasta a los más expertos. El "peso" de un término en un registro, medido por el número de veces que aparece, es una nueva forma de búsqueda, inédita en los medios usuales. Hasta ahora las búsquedas se basaban sólo en si un término "está" o "no está" presente, pero ahora se mira además si está poco o si está muy presente.

Si un usuario quiere realizar una búsqueda muy exhaustiva, quizá debería plantearse dos estrategias y luego unir los resultados: una clásica con pocos términos sobre títulos y descriptores y otra con target empleando más sinónimos.

En el ejemplo de abajo se indican con un asterisco los términos de presencia obligatoria, puesto que target primero combina todos con todos, pero si no encuentra nada o se obtienen menos de 50 registros, elimina rotatoriamente cada uno de los términos y va haciendo combinaciones con el resto. El asterisco indica al programa que deje de buscar cuando agote las combinaciones de los términos asteriscados entre sí y con los demás, de forma que los asteriscados nunca sean eliminados.

En una búsqueda normal, target no presenta automáticamente la información sobre la relevancia estadística y la frecuencia de términos en cada registro. Si se quieren ver estos parámetros (v. ejemplo), hay que entrar las instrucciones set target percent y set target freq respectivamente (pueden solicitarse ambos a la vez).

DIALOG INFORMATION SERVICES
PLEASE LOGON: 123456
ENTER PASSWORD: abcdef
Welcome to DIALOG

? b15

File 15:ABI/INFORM(R) 1971‑1994/Jan W4

(c) 1994 UMI

Set   Items   Description

‑‑‑‑‑

? set target freq percent

? target *unemployment *information *technologies jobs

Your TARGET search request will retrieve up to 50 of the statistically most

relevant records.

Searching 1993‑1994 records only

...Processing Complete

Your search retrieved 50 records.

Enter number of records to browse in TARGET format. Q = QUIT

? 6

DIALOG‑TARGET RESULTS (arranged by percent RELEVANCE)

‑‑Item: 1‑‑‑

The impact of *information* technology on middle managers

MIS Quarterly Sep 1993

‑ Statistical Relevance: 99%

‑ Term Frequency: UNEMPLOYMENT ‑ 2 ; INFORMATION ‑ 60 ; TECHNOLOGIES ‑ 2 ; JOBS ‑ 20

‑‑Item: 2‑‑‑

Are skill requirements rising? Evidence from production and clerical *jobs*

Industrial & Labor Relations Review Apr 1993

‑ Statistical Relevance: 97%

‑ Term Frequency: UNEMPLOYMENT ‑ 6 ; INFORMATION ‑ 4 ; TECHNOLOGIES ‑ 6 ; JOBS ‑ 158

‑‑Item: 3‑‑‑

*Information* technology and the management difference: A fusion map

IBM Systems Journal 1993

‑ Statistical Relevance: 97%

‑ Term Frequency: UNEMPLOYMENT ‑ 1 ; INFORMATION ‑ 96 ; TECHNOLOGIES ‑ 5 ; JOBS ‑ 1

‑‑Item: 4‑‑‑

What outlook for *information* *technologies*?

OECD Observer Jun/Jul 1993

‑ Statistical Relevance: 95%

‑ Term Frequency: UNEMPLOYMENT ‑ 2 ; INFORMATION ‑ 31 ; TECHNOLOGIES ‑ 2 ; JOBS ‑ 4

‑‑Item: 5‑‑‑

*Information* flows and discrimination in labor markets in rural areas in developing countries. Comment Floor discussion

World Bank Research Observer 1992

‑ Statistical Relevance: 94%

‑ Term Frequency: UNEMPLOYMENT ‑ 10 ; INFORMATION ‑ 143 ; TECHNOLOGIES ‑ 1 ; JOBS ‑ 8

‑‑Item: 6‑‑‑

Job search by unemployed school‑leavers: The use of the Careers Service during a recession

International Journal of Manpower 1993

‑ Statistical Relevance: 94%

‑ Term Frequency: UNEMPLOYMENT ‑ 46 ; INFORMATION ‑ 6 ; TECHNOLOGIES ‑ 10 ; JOBS ‑ 5

‑‑‑‑‑‑

Press ENTER to continue browsing or enter item number(s) to see full record

M = Modify search T = New TARGET C = Customize display Q = QUIT H = HELP

? q

Ending TARGET search. Enter TARGET to do another search in the present file(s), or BEGIN new file(s). Enter LOGOFF to disconnect from Dialog

? logoff

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1994/marzo/dialog_present_su_target.html