El profesional de la información


Noviembre 1998

Muscat: indexacion de intranets y web sites corporativos

Por Ricardo Eíto Brun

El subsistema de recuperación se basa en el modelo probabilístico, que toma como base:

  1. la distribución de los términos extraídos de los documentos en la colección -probabilidad de aparición-,
  2. la ponderación asignada a los términos que aparecen en los documentos, y
  3. las valoraciones que propone el usuario para cada uno de los documentos recuperados.

A partir de estas valoraciones, el sistema volverá a definir la ecuación de búsqueda de manera transparente para el usuario, añadiéndole aquellos términos que aparezcan con mayor frecuencia en los documentos relevantes, y no aparezcan en los documentos no relevantes.

Desde 1992, Muscat comercializa soluciones para la indexación y recuperación de información en texto completo. El origen de esta compañía británica se remonta a las investigaciones desarrolladas desde 1984 por Martin Porter, actual director técnico de Muscat, en torno a los modelos de recuperación probabilísticos.

La primera aplicación no comercial del software resultado de estas investigaciones consistió en un sistema de recuperación textual para un equipo informático bajo VMS (sistema operativo de Digital) que se utilizó en el museo de la Universidad de Cambridge. De este primer proyecto se tomó el nombre de la empresa y el de su línea de productos: Muscat, museum cataloguing.

A pesar de que el software se ha utilizado con éxito en numerosos proyectos, la compañía no ha alcanzado la popularidad de algunos de sus competidores: Verity, Fulcrum o PLS.

Esta situación está llamada a cambiar desde el mes de agosto del año pasado. En esa fecha, Maid hizo pública la adquisición de Muscat. Tres meses más tarde nos sorprendió con la compra de KRI (Knight-Ridder Information) a Knight-Ridder, en la que se integraban los proveedores de información en línea Dialog y DataStar. Como resultado de esta adquisición se formó The Dialog Corporation. De la creación de esta compañía y de sus principales líneas de actuación se ha ofrecido amplia información en números pasados de IWE.

Actualmente Muscat mantiene su propia identidad como empresa. Su inclusión en The Dialog Corporation está llamada a reforzar la presencia de sus soluciones en el mercado internacional. Este factor se ve potenciado por la orientación que ha adoptado The Dialog Corporation desde comienzos de año, al complementar la distribución de sus bdds con servicios de consultoría y soluciones personalizadas dirigidas a integrar los contenidos de Dialog, DataStar y Profound, con la información generada internamente en las organizaciones.

Hasta hace poco tiempo era posible descargar del servidor web de Muscat una copia freeware de Muscat fx. Esta versión permitía indexar un máximo de mil documentos ascii y html residentes en un único servidor de archivos. No estaban disponibles todas las opciones de recuperación que ofrece la versión comercial.

Si bien la versión freeware se ha retirado, las organizaciones que deseen evaluar las posibilidades del programa pueden obtener una copia de prueba.

Las tecnologías de indexación y recuperación ofrecidas por Muscat y el sistema de categorización automática InfoSort constituyen dos factores clave en la estrategia de The Dialog Corporation.

En el marco de esta estrategia de expansión el pasado mes de febrero Muscat abrió una nueva sucursal en Bussum, Holanda, encargada de coordinar la comercialización de su software en Europa continental.

Entre las organizaciones que están empleando Muscat se encuentra la agencia de noticias Reuters, Electronic Telegraph, Virgin.Net, Blackwell Publishing, Shell, Sun Microsystems, UUNet y GreenPeace. Con los dos primeros, Reuters y Telegraph, Muscat mantiene una estrecha relación desde el año 1992.

Muscat fx: características técnicas

La oferta comercial se estructura en torno al motor de indexación y recuperación Muscat fx, disponible para Windows NT, sistemas VMS y las principales variantes de Unix (Sun Solaris, Alpha, SCO Unixware, Linux, IBM AIX y HP-UX).

Muscat fx permite:

- Indexar archivos con distintos formatos (MS-Office, Acrobat pdf, WordPerfect, ascii, html, etc.), localizados en servidores de ficheros de una red de área local o en sedes web distribuidas.

Módulo de administración de índices Index Management Program incluido en la versión freeware. Los índices se gestionan a través de páginas html y mediante órdenes ejecutables desde línea de comandos

Euroferret es un buscador internet gratuito desarrollado por Muscat en 1996 que únicamente indexa documentos procedentes de servidores web europeos. Con más de 30 millones de documentos indexados, Euroferret pretende demostrar el balance favorable entre rendimiento y recursos que caracteriza al software de Muscat.

Los índices se generan extrayendo las 60 palabras y las 12 frases más relevantes de cada documento.

Ofrece una buena ocasión para probar el funcionamiento de las funciones Expand e Improve, características de Muscat fx.

http://www.euroferret.com

Soporta distintos idiomas: inglés, holandés, alemán, español, portugués, etc., y ofrece listas de palabras vacías y algoritmos para truncar los términos identificados en los documentos de acuerdo con las reglas morfológicas de cada idioma.

  • Crear bdds en las que, además de los índices en texto completo, se almacene el contenido íntegro de los documentos.
  • Interrogar los índices creados por Muscat a través de formularios html utilizando un navegador: Netscape Navigator, Microsoft Internet Explorer, etc.
  • Gestionar los índices por medio de una interface html: Index Management Program. Con este programa el administrador podrá diseñar estrategias de indexación, actualizar y regenerar índices, y restringir el acceso a los índices a los usuarios no autorizados.

En los próximos meses, Muscat va a añadir dos nuevas funciones a sus productos: un módulo Web-CD y un servicio de alerta automática -Agent Alert- basado en tecnología push.

Web-CD permite volcar a un cd-rom los archivos indexados por el programa, su correspondiente índice en texto completo y una versión del motor de búsqueda junto a un filtro de visualización.

Con el servicio de alerta Agent Alert los usuarios de Muscat podrán definir perfiles de interés, de forma que, siempre que el indexador identifique un documento que incluya los términos indicados en un perfil, el sistema enviará una notificación a los usuarios avisándoles de la existencia del nuevo documento.

Las notificaciones se remitirán mediante correo electrónico o serán presentadas a los usuarios en una página web personal en cuanto accedan al sistema mediante un nombre de usuario y contraseña.

Además de esta función, Agent Alert redefinirá los perfiles añadiéndoles términos que aparezcan con frecuencia en los documentos que los usuarios consideren relevantes. Los perfiles podrán ser modificados en cualquier momento.

Lista de documentos recuperados por Muscat tras ejecutar una búsqueda

La documentación de Muscat ofrece cuantiosos datos sobre el óptimo rendimiento de su motor de indexación y recuperación. Destaca especialmente un benchmark (prueba de rendimiento de software/hardware) desarrollado por Reuters y Sun Microsystems en noviembre de 1996, en el que se obtuvieron los siguientes resultados:

Sobre una base de datos de noticias a la que se añadían 1.500 documentos por minuto, el sistema ejecutó:

  • 10 búsquedas por segundo sobre un total de 55 Gb: 17 millones de documentos,
  • 18 búsquedas por segundo sobre un total de 33 Gb: 10 millones de documentos, y
  • 29 búsquedas por segundo sobre un total de 20 Gb: 6 millones de documentos.

Cada búsqueda consistía en lanzar una ecuación formada por dos términos, calcular la relevancia de los mil primeros documentos más relevantes para la ecuación, mostrar en pantalla el resumen de los quince primeros y el texto completo de los diez primeros.

Productos comerciales

Muscat Ltd. ofrece: Single Site Indexer y Multisite Indexer.

El primero de ellos permite indexar un número ilimitado de documentos distribuidos en distintos servidores de ficheros de una red de área local. Single Site Indexer recorre directorios de red, pero no es capaz de reconocer URLs.

Multisite Indexer amplía las prestaciones del producto anterior, al permitir la indexación de documentos de servidores web remotos. Este producto accede a los archivos a través del protocolo http 1.1, por lo que su ámbito de acción no está limitado a redes de área local.

Multisite Indexer incorpora tecnología crawling. Es decir, la capacidad de identificar hiperenlaces y referencias cruzadas en documentos html. El indexador podrá recuperar e indexar los documentos referenciados en estos enlaces, siempre que se encuentren en uno de los servidores web monitorizados por el sistema.

Además de comercializar estos productos, Muscat Ltd. desarrolla soluciones a medida para satisfacer las necesidades específicas de cada organización. La empresa ha adquirido una amplia experiencia en el desarrollo de sistemas de indexación para documentos sgml, integración con Lotus Notes y sistemas relacionales, desarrollo de agentes personalizados, etc.

Muscat Ltd. cuenta con un equipo de consultoría y servicios encargado de analizar cada caso y proponer los desarrollos que mejor se adecúen a los requerimientos propuestos por el cliente.

Como prueba de esta capacidad para desarrollar soluciones paramétricas, se puede destacar el diseño del agente NewsExplorer, programado para el servicio de información Reuters, o el proyecto National Exporters Database del Ministerio de Comercio británico, que constituye un ejemplo de integración de Muscat con las bdds de The Dialog Corporation y el sistema de categorización InfoSort.

Indexación de documentos

Muscat fx es capaz de indexar cerca de 200 tipos de documentos, entre los que se encuentran los formatos más habituales: ascii, html, Microsoft Office, Word, pdf, etc.

Antes de iniciar el proceso de indexación, el administrador del sistema tendrá que diseñar una estrategia en la que podrá indicar:

  • Qué directorios de la red de área local o de servidores web se quiere indexar. La segunda posibilidad sólo estará disponible para los usuarios de Multisite Indexer.
  • Si el indexador debe reconocer los hiperenlaces de los documentos html, y recuperar e indexar los documentos a los que hace referencia el enlace. Muscat fx sólo indexará los documentos referenciados si éstos se encuentran en uno de los directorios o servidores web que estén siendo monitorizados. El administrador podrá indicar la profundidad con la que debe trabajar el indexador. Esta función sólo estará disponible para los usuarios de Multisite Indexer.
  • Cuándo se quiere iniciar el proceso, y si se desea ejecutar a intervalos regulares (por ejemplo, cada 5 ó 6 horas, diariamente, etc.).

Además de estas posibilidades básicas, el administrador podrá personalizar un script en el que se indican los parámetros que regirán el comportamiento del indexador. Este nivel de parametrización amplía considerablemente las opciones disponibles. Desde IMP se podrá:

  • Optar por generar un índice con punteros a la ubicación de los documentos, o una bdd que contenga -además del índice- el contenido completo de todos los documentos. Como ejemplo de la utilización de Muscat para generar una bdd compuesta por documentos íntegros y sus índices destacaremos el sistema Linguistics Abstracts Online, de Blackwell Publishers.
  • Realizar una indexación selectiva, indicando si se quiere indexar únicamente un tipo determinado de archivos (Word, html, etc.), y qué partes del documento se desea indexar: 200 primeras líneas, texto completo, primer párrafo, etc.

En este sentido Muscat ofrece una gran flexibilidad, siendo posible diseñar estrategias de indexación distintas para cada tipo de documento; por ejemplo, se podría indexar el texto completo de los documentos Word, las 20 primeras líneas y las etiquetas <meta> de ficheros html, etc.

- Reconocer las etiquetas <meta> de los documentos html, para permitir búsquedas cualificadas.

La próxima versión de Muscat fx va a ampliar estas posibilidades. Entre ellas se encuentra la de que el indexador reconozca las propiedades de los documentos pdf.

Sincronizar vs. indexar

Los indexadores de intranet avanzados ofrecen la posibilidad de interrogar distintas fuentes de información de forma transparente para el usuario: bases de datos relacionales, sistemas de gestión documental, aplicaciones groupware y de mensajería (Microsoft Exchange, Lotus Notes...), etc.

El usuario lanzará una ecuación y, como resultado, obtendrá una única lista con referencias a documentos, registros y mensajes procedentes de cualquiera de estas aplicaciones.

Para poder interrogar fuentes de información heterogéneas, los indexadores actúan de dos formas:

  • Indexando directamente los contenidos de las fuentes de información. Por ejemplo, los documentos de una bdd Notes, los mensajes de un servidor Exchange o las tablas de una bdd Oracle.
  • Sincronizando sus índices con los índices creados y mantenidos por la aplicación en la que se ha registrado la información. Por ejemplo, con los índices ya existentes de una bdd Notes.

Este segundo enfoque evita la necesidad de mantener dos índices definidos sobre una misma fuente de información.

Tras diseñar la estrategia de indexación, el administrador podrá iniciar el proceso. Muscat recorrerá los directorios y web-sites indicados, identificará documentos y procederá a la actualización del índice. Éste puede estar siendo actualizado por el proceso de indexación al mismo tiempo que los usuarios lanzan búsquedas contra él, sin que esto suponga gran detrimento en el rendimiento global del sistema.

Una vez finalizado el proceso de indexación, el administrador podrá añadir campos descriptivos a documentos específicos o a grupos de documentos. Por ejemplo, a todos los documentos que se hayan identificado en el subdirectorio /marketing, se podría asignar el valor Marketing a la propiedad Procedencia.

El índice se actualizará de forma automática una vez haya transcurrido el tiempo indicado durante la fase de parametrización.

Subsistema de recuperación

El acceso a los índices creados por Muscat se hace a través de formularios html, pudiéndose interrogar múltiples índices de forma simultánea. El programa ofrece un conjunto de formularios predefinidos que pueden ser fácilmente personalizados con un editor html.

El sistema implementa las principales opciones de búsqueda: booleana, lenguaje natural, cualificada, etc. El usuario también podrá buscar documentos que hayan sido creados o modificados en una fecha específica, o en un período de tiempo comprendido entre dos fechas. También es posible indicar en la ecuación que unos términos tienen más importancia que otros. En este caso, al evaluar la relevancia de un documento, el sistema asignará un valor más alto a las ocurrencias de los términos destacados por el usuario que a las del resto de términos de la ecuación.

Como resultado de la búsqueda, Muscat presentará una lista con referencias de todos los documentos que contengan los términos propuestos, ordenados según su relevancia. Ésta se calcula a partir de:

a) la frecuencia con que aparecen en el documento los términos propuestos por el usuario,

b) la proximidad con que aparecen en el documento los términos buscados, de forma que un documento en el que los términos aparecen más próximos será juzgado más relevante que otro documento en el que estos mismos términos se encuentran más alejados.

Cada referencia se acompaña de un breve resumen obtenido por extracción de las frases más significativas. Es posible cambiar el orden de los resultados para que aparezcan en primer lugar las referencias de los documentos más recientes, o los documentos en los que los términos de la búsqueda están más próximos.

En esta primera lista, el usuario podrá señalar los que le parezcan más relevantes y utilizar las funciones Improve y Expand para mejorar los resultados iniciales.

El primero de ellos hace que el sistema ejecute de nuevo la consulta, tras añadirle, de forma transparente al usuario, los términos que aparezcan con una mayor frecuencia en los documentos que hayan sido considerados relevantes.

Expand presenta un listado con los términos más significativos de los documentos relevantes. El usuario podrá añadir términos de esta lista a su ecuación inicial, y volver a ejecutar la búsqueda.

El proceso podrá repetirse tantas veces como sea necesario. En cualquier momento se podrá ver el contenido de los documentos recuperados. Es posible visualizarlos a través del visor de Inso -capaz de mostrar documentos de distinto formato-, o iniciando la aplicación con la que esté asociada el tipo de documento recuperado en el sistema operativo Windows. Por ejemplo, se iniciaría Microsoft Word para ver un documento con extensión .doc, o Acrobat Reader para ver un documento .pdf.

Oracle Gateway

Este módulo indexa el contenido de las tablas de una bdd Oracle.

Oracle Gateway no sincroniza sus índices con los de Oracle. En lugar de esto, Muscat crea sus propios índices, y periódicamente se ejecutará un proceso que se encarga de actualizarlos para que reflejen los cambios que se hayan realizado en la bdd.

La información propiamente dicha reside en Oracle, y cuando un usuario decida visualizar información procedente del sistema gestor, Muscat realizará una llamada a Oracle para poder recuperar los resultados y mostrarlos en pantalla.

Muscat fx Professional

Muscat ofrece a los desarrolladores de software la posibilidad de integrar su sistema de indexación y recuperación en las propias aplicaciones.

Para que esta integración pueda hacerse efectiva, se comercializa un conjunto de APIs (Application Program Interfaces) y clases para los lenguajes de programación C y C++. Próximamente estará disponible un API para programadores Java.

La interface de programación ofrece la posibilidad de conectarse a índices locales o remotos, diseñar y ejecutar ecuaciones de búsqueda, recuperar los resultados, ordenarlos, ejecutar la función Improve, etc.

Administración

Los índices se gestionan mediante la herramienta IMP (Index management program), a la que se puede acceder a través de un navegador html. Algunas funciones de administración deben ejecutarse desde línea de comandos.

El subsistema de administración permite configurar la estrategia de indexación, actualizar índices existentes y gestionar la seguridad.

Respecto a esto último, el administrador podrá restringir la posibilidad de acceder a los índices a partir de las direcciones IP de la máquina desde la que se accede, y según las máscaras de dominio. De esta forma, se podría restringir el acceso para que sólo pudiesen interrogar los índices los usuarios cuya máscara de red se corresponda con una específica, por ejemplo la 140.15.28.xxx.

En la próxima versión los usuarios autorizados podrán acceder a Muscat desde cualquier ordenador, identificándose mediante un nombre de usuario y una contraseña.

Entre las opciones parametrizables se encuentran:

  1. el número de términos que se añadirán a una ecuación de búsqueda cuando se ejecute la función Improve,
  2. el número de términos que se mostrarán en pantalla al usuario tras entrar en acción la función Expande, y
  3. el número de referencias que se mostrarán en cada pantalla como resultado de una búsqueda, etc.

El administrador también podrá personalizar los formularios de búsqueda, el formulario que presenta Muscat al ejecutar la función Expand, y una página html especial que se mostrará cuando se ejecuten las funciones Improve o Expand sin haber señalado al menos un documento de la lista de resultados. Estos formularios están incluidos dentro de páginas html a las que se añaden unas palabras reservadas precedidas por el carácter \. Cada una de ellas corresponde a una variable gestionada por Muscat. Por ejemplo, la palabra \Stats mostrará el número de documentos recuperados, \Hits será sustituida por la lista de documentos recuperados, \Next se sustituirá por un botón que permite mostrar una nueva página con las siguientes referencias, etc.

El administrador dispondrá de dos ficheros adicionales: pspec y espec, en los que podrá parametrizar respectivamente el formato en el que se mostrarán las referencias de la lista de resultados, y el mecanismo de ordenación por defecto (relevancia o documentos más recientes).

Conclusiones

Muscat fx debe considerarse como una alternativa válida en el mercado de software de indexación y recuperación. La experiencia adquirida en el desarrollo de soluciones personalizadas capaces de integrar sus índices con fuentes de información internas (Lotus Notes, Oracle, etc.) y externas (Reuters, Dialog...) está llamada a crecer impulsada por la estrategia adoptada por The Dialog Corporation desde comienzos de año.

Por otra parte, las mejoras que se van a introducir en la nueva versión de su producto -Muscat fm- permitirán a la compañía británica competir con garantías de éxito frente a los fabricantes de software de indexación que disfrutan de una mayor popularidad.

Muscat Ltd. Unit D, The Westbrook Centre, Milton Road, Cambridge CB4 1YG. Reino Unido.

Tel: +44-122-371 50 00; fax: 371 50 01

http://www.muscat.com

 

http://www.tradeuk.com

http://www.muscat.com/labs

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1998/noviembre/muscat_indexacion_de_intranets_y_web_sites_corporativos.html