Noviembre 1998
Muscat: indexacion de intranets y web sites corporativos
Por Ricardo Eíto Brun
El subsistema de recuperación se basa en el modelo probabilístico, que toma como base:
A partir de estas valoraciones, el sistema volverá a definir la ecuación de búsqueda de manera transparente para el usuario, añadiéndole aquellos términos que aparezcan con mayor frecuencia en los documentos relevantes, y no aparezcan en los documentos no relevantes.
Desde 1992, Muscat comercializa soluciones para la indexación y recuperación de información en texto completo. El origen de esta compañía británica se remonta a las investigaciones desarrolladas desde 1984 por Martin Porter, actual director técnico de Muscat, en torno a los modelos de recuperación probabilísticos.
La primera aplicación no comercial del software resultado de estas investigaciones consistió en un sistema de recuperación textual para un equipo informático bajo VMS (sistema operativo de Digital) que se utilizó en el museo de la Universidad de Cambridge. De este primer proyecto se tomó el nombre de la empresa y el de su línea de productos: Muscat, museum cataloguing.
A pesar de que el software se ha utilizado con éxito en numerosos proyectos, la compañía no ha alcanzado la popularidad de algunos de sus competidores: Verity, Fulcrum o PLS.
Esta situación está llamada a cambiar desde el mes de agosto del año pasado. En esa fecha, Maid hizo pública la adquisición de Muscat. Tres meses más tarde nos sorprendió con la compra de KRI (Knight-Ridder Information) a Knight-Ridder, en la que se integraban los proveedores de información en línea Dialog y DataStar. Como resultado de esta adquisición se formó The Dialog Corporation. De la creación de esta compañía y de sus principales líneas de actuación se ha ofrecido amplia información en números pasados de IWE.
Actualmente Muscat mantiene su propia identidad como empresa. Su inclusión en The Dialog Corporation está llamada a reforzar la presencia de sus soluciones en el mercado internacional. Este factor se ve potenciado por la orientación que ha adoptado The Dialog Corporation desde comienzos de año, al complementar la distribución de sus bdds con servicios de consultoría y soluciones personalizadas dirigidas a integrar los contenidos de Dialog, DataStar y Profound, con la información generada internamente en las organizaciones.
Hasta hace poco tiempo era posible descargar del servidor web de Muscat una copia freeware de Muscat fx. Esta versión permitía indexar un máximo de mil documentos ascii y html residentes en un único servidor de archivos. No estaban disponibles todas las opciones de recuperación que ofrece la versión comercial.
Si bien la versión freeware se ha retirado, las organizaciones que deseen evaluar las posibilidades del programa pueden obtener una copia de prueba.
Las tecnologías de indexación y recuperación ofrecidas por Muscat y el sistema de categorización automática InfoSort constituyen dos factores clave en la estrategia de The Dialog Corporation.
En el marco de esta estrategia de expansión el pasado mes de febrero Muscat abrió una nueva sucursal en Bussum, Holanda, encargada de coordinar la comercialización de su software en Europa continental.
Entre las organizaciones que están empleando Muscat se encuentra la agencia de noticias Reuters, Electronic Telegraph, Virgin.Net, Blackwell Publishing, Shell, Sun Microsystems, UUNet y GreenPeace. Con los dos primeros, Reuters y Telegraph, Muscat mantiene una estrecha relación desde el año 1992.
Muscat fx: características técnicas
La oferta comercial se estructura en torno al motor de indexación y recuperación Muscat fx, disponible para Windows NT, sistemas VMS y las principales variantes de Unix (Sun Solaris, Alpha, SCO Unixware, Linux, IBM AIX y HP-UX).
Muscat fx permite:
- Indexar archivos con distintos formatos (MS-Office, Acrobat pdf, WordPerfect, ascii, html, etc.), localizados en servidores de ficheros de una red de área local o en sedes web distribuidas.

Euroferret es un buscador internet gratuito desarrollado por Muscat en 1996 que únicamente indexa documentos procedentes de servidores web europeos. Con más de 30 millones de documentos indexados, Euroferret pretende demostrar el balance favorable entre rendimiento y recursos que caracteriza al software de Muscat.
Los índices se generan extrayendo las 60 palabras y las 12 frases más relevantes de cada documento.
Ofrece una buena ocasión para probar el funcionamiento de las funciones Expand e Improve, características de Muscat fx.
http://www.euroferret.com
Soporta distintos idiomas: inglés, holandés, alemán, español, portugués, etc., y ofrece listas de palabras vacías y algoritmos para truncar los términos identificados en los documentos de acuerdo con las reglas morfológicas de cada idioma.
En los próximos meses, Muscat va a añadir dos nuevas funciones a sus productos: un módulo Web-CD y un servicio de alerta automática -Agent Alert- basado en tecnología push.
Web-CD permite volcar a un cd-rom los archivos indexados por el programa, su correspondiente índice en texto completo y una versión del motor de búsqueda junto a un filtro de visualización.
Con el servicio de alerta Agent Alert los usuarios de Muscat podrán definir perfiles de interés, de forma que, siempre que el indexador identifique un documento que incluya los términos indicados en un perfil, el sistema enviará una notificación a los usuarios avisándoles de la existencia del nuevo documento.
Las notificaciones se remitirán mediante correo electrónico o serán presentadas a los usuarios en una página web personal en cuanto accedan al sistema mediante un nombre de usuario y contraseña.
Además de esta función, Agent Alert redefinirá los perfiles añadiéndoles términos que aparezcan con frecuencia en los documentos que los usuarios consideren relevantes. Los perfiles podrán ser modificados en cualquier momento.

La documentación de Muscat ofrece cuantiosos datos sobre el óptimo rendimiento de su motor de indexación y recuperación. Destaca especialmente un benchmark (prueba de rendimiento de software/hardware) desarrollado por Reuters y Sun Microsystems en noviembre de 1996, en el que se obtuvieron los siguientes resultados:
Sobre una base de datos de noticias a la que se añadían 1.500 documentos por minuto, el sistema ejecutó:
Cada búsqueda consistía en lanzar una ecuación formada por dos términos, calcular la relevancia de los mil primeros documentos más relevantes para la ecuación, mostrar en pantalla el resumen de los quince primeros y el texto completo de los diez primeros.
Productos comerciales
Muscat Ltd. ofrece: Single Site Indexer y Multisite Indexer.
El primero de ellos permite indexar un número ilimitado de documentos distribuidos en distintos servidores de ficheros de una red de área local. Single Site Indexer recorre directorios de red, pero no es capaz de reconocer URLs.
Multisite Indexer amplía las prestaciones del producto anterior, al permitir la indexación de documentos de servidores web remotos. Este producto accede a los archivos a través del protocolo http 1.1, por lo que su ámbito de acción no está limitado a redes de área local.
Multisite Indexer incorpora tecnología crawling. Es decir, la capacidad de identificar hiperenlaces y referencias cruzadas en documentos html. El indexador podrá recuperar e indexar los documentos referenciados en estos enlaces, siempre que se encuentren en uno de los servidores web monitorizados por el sistema.
Además de comercializar estos productos, Muscat Ltd. desarrolla soluciones a medida para satisfacer las necesidades específicas de cada organización. La empresa ha adquirido una amplia experiencia en el desarrollo de sistemas de indexación para documentos sgml, integración con Lotus Notes y sistemas relacionales, desarrollo de agentes personalizados, etc.
Muscat Ltd. cuenta con un equipo de consultoría y servicios encargado de analizar cada caso y proponer los desarrollos que mejor se adecúen a los requerimientos propuestos por el cliente.
Como prueba de esta capacidad para desarrollar soluciones paramétricas, se puede destacar el diseño del agente NewsExplorer, programado para el servicio de información Reuters, o el proyecto National Exporters Database del Ministerio de Comercio británico, que constituye un ejemplo de integración de Muscat con las bdds de The Dialog Corporation y el sistema de categorización InfoSort.
Indexación de documentos
Muscat fx es capaz de indexar cerca de 200 tipos de documentos, entre los que se encuentran los formatos más habituales: ascii, html, Microsoft Office, Word, pdf, etc.
Antes de iniciar el proceso de indexación, el administrador del sistema tendrá que diseñar una estrategia en la que podrá indicar:
Además de estas posibilidades básicas, el administrador podrá personalizar un script en el que se indican los parámetros que regirán el comportamiento del indexador. Este nivel de parametrización amplía considerablemente las opciones disponibles. Desde IMP se podrá:
En este sentido Muscat ofrece una gran flexibilidad, siendo posible diseñar estrategias de indexación distintas para cada tipo de documento; por ejemplo, se podría indexar el texto completo de los documentos Word, las 20 primeras líneas y las etiquetas <meta> de ficheros html, etc.
- Reconocer las etiquetas <meta> de los documentos html, para permitir búsquedas cualificadas.
La próxima versión de Muscat fx va a ampliar estas posibilidades. Entre ellas se encuentra la de que el indexador reconozca las propiedades de los documentos pdf.
Sincronizar vs. indexar
Los indexadores de intranet avanzados ofrecen la posibilidad de interrogar distintas fuentes de información de forma transparente para el usuario: bases de datos relacionales, sistemas de gestión documental, aplicaciones groupware y de mensajería (Microsoft Exchange, Lotus Notes...), etc.
El usuario lanzará una ecuación y, como resultado, obtendrá una única lista con referencias a documentos, registros y mensajes procedentes de cualquiera de estas aplicaciones.
Para poder interrogar fuentes de información heterogéneas, los indexadores actúan de dos formas:
Este segundo enfoque evita la necesidad de mantener dos índices definidos sobre una misma fuente de información.
Tras diseñar la estrategia de indexación, el administrador podrá iniciar el proceso. Muscat recorrerá los directorios y web-sites indicados, identificará documentos y procederá a la actualización del índice. Éste puede estar siendo actualizado por el proceso de indexación al mismo tiempo que los usuarios lanzan búsquedas contra él, sin que esto suponga gran detrimento en el rendimiento global del sistema.
Una vez finalizado el proceso de indexación, el administrador podrá añadir campos descriptivos a documentos específicos o a grupos de documentos. Por ejemplo, a todos los documentos que se hayan identificado en el subdirectorio /marketing, se podría asignar el valor Marketing a la propiedad Procedencia.
El índice se actualizará de forma automática una vez haya transcurrido el tiempo indicado durante la fase de parametrización.
Subsistema de recuperación
El acceso a los índices creados por Muscat se hace a través de formularios html, pudiéndose interrogar múltiples índices de forma simultánea. El programa ofrece un conjunto de formularios predefinidos que pueden ser fácilmente personalizados con un editor html.
El sistema implementa las principales opciones de búsqueda: booleana, lenguaje natural, cualificada, etc. El usuario también podrá buscar documentos que hayan sido creados o modificados en una fecha específica, o en un período de tiempo comprendido entre dos fechas. También es posible indicar en la ecuación que unos términos tienen más importancia que otros. En este caso, al evaluar la relevancia de un documento, el sistema asignará un valor más alto a las ocurrencias de los términos destacados por el usuario que a las del resto de términos de la ecuación.
Como resultado de la búsqueda, Muscat presentará una lista con referencias de todos los documentos que contengan los términos propuestos, ordenados según su relevancia. Ésta se calcula a partir de:
a) la frecuencia con que aparecen en el documento los términos propuestos por el usuario,
b) la proximidad con que aparecen en el documento los términos buscados, de forma que un documento en el que los términos aparecen más próximos será juzgado más relevante que otro documento en el que estos mismos términos se encuentran más alejados.
Cada referencia se acompaña de un breve resumen obtenido por extracción de las frases más significativas. Es posible cambiar el orden de los resultados para que aparezcan en primer lugar las referencias de los documentos más recientes, o los documentos en los que los términos de la búsqueda están más próximos.
En esta primera lista, el usuario podrá señalar los que le parezcan más relevantes y utilizar las funciones Improve y Expand para mejorar los resultados iniciales.
El primero de ellos hace que el sistema ejecute de nuevo la consulta, tras añadirle, de forma transparente al usuario, los términos que aparezcan con una mayor frecuencia en los documentos que hayan sido considerados relevantes.
Expand presenta un listado con los términos más significativos de los documentos relevantes. El usuario podrá añadir términos de esta lista a su ecuación inicial, y volver a ejecutar la búsqueda.
El proceso podrá repetirse tantas veces como sea necesario. En cualquier momento se podrá ver el contenido de los documentos recuperados. Es posible visualizarlos a través del visor de Inso -capaz de mostrar documentos de distinto formato-, o iniciando la aplicación con la que esté asociada el tipo de documento recuperado en el sistema operativo Windows. Por ejemplo, se iniciaría Microsoft Word para ver un documento con extensión .doc, o Acrobat Reader para ver un documento .pdf.
Oracle Gateway
Este módulo indexa el contenido de las tablas de una bdd Oracle.
Oracle Gateway no sincroniza sus índices con los de Oracle. En lugar de esto, Muscat crea sus propios índices, y periódicamente se ejecutará un proceso que se encarga de actualizarlos para que reflejen los cambios que se hayan realizado en la bdd.
La información propiamente dicha reside en Oracle, y cuando un usuario decida visualizar información procedente del sistema gestor, Muscat realizará una llamada a Oracle para poder recuperar los resultados y mostrarlos en pantalla.
Muscat fx Professional
Muscat ofrece a los desarrolladores de software la posibilidad de integrar su sistema de indexación y recuperación en las propias aplicaciones.
Para que esta integración pueda hacerse efectiva, se comercializa un conjunto de APIs (Application Program Interfaces) y clases para los lenguajes de programación C y C++. Próximamente estará disponible un API para programadores Java.
La interface de programación ofrece la posibilidad de conectarse a índices locales o remotos, diseñar y ejecutar ecuaciones de búsqueda, recuperar los resultados, ordenarlos, ejecutar la función Improve, etc.
Administración
Los índices se gestionan mediante la herramienta IMP (Index management program), a la que se puede acceder a través de un navegador html. Algunas funciones de administración deben ejecutarse desde línea de comandos.
El subsistema de administración permite configurar la estrategia de indexación, actualizar índices existentes y gestionar la seguridad.
Respecto a esto último, el administrador podrá restringir la posibilidad de acceder a los índices a partir de las direcciones IP de la máquina desde la que se accede, y según las máscaras de dominio. De esta forma, se podría restringir el acceso para que sólo pudiesen interrogar los índices los usuarios cuya máscara de red se corresponda con una específica, por ejemplo la 140.15.28.xxx.
En la próxima versión los usuarios autorizados podrán acceder a Muscat desde cualquier ordenador, identificándose mediante un nombre de usuario y una contraseña.
Entre las opciones parametrizables se encuentran:
El administrador también podrá personalizar los formularios de búsqueda, el formulario que presenta Muscat al ejecutar la función Expand, y una página html especial que se mostrará cuando se ejecuten las funciones Improve o Expand sin haber señalado al menos un documento de la lista de resultados. Estos formularios están incluidos dentro de páginas html a las que se añaden unas palabras reservadas precedidas por el carácter \. Cada una de ellas corresponde a una variable gestionada por Muscat. Por ejemplo, la palabra \Stats mostrará el número de documentos recuperados, \Hits será sustituida por la lista de documentos recuperados, \Next se sustituirá por un botón que permite mostrar una nueva página con las siguientes referencias, etc.
El administrador dispondrá de dos ficheros adicionales: pspec y espec, en los que podrá parametrizar respectivamente el formato en el que se mostrarán las referencias de la lista de resultados, y el mecanismo de ordenación por defecto (relevancia o documentos más recientes).
Conclusiones
Muscat fx debe considerarse como una alternativa válida en el mercado de software de indexación y recuperación. La experiencia adquirida en el desarrollo de soluciones personalizadas capaces de integrar sus índices con fuentes de información internas (Lotus Notes, Oracle, etc.) y externas (Reuters, Dialog...) está llamada a crecer impulsada por la estrategia adoptada por The Dialog Corporation desde comienzos de año.
Por otra parte, las mejoras que se van a introducir en la nueva versión de su producto -Muscat fm- permitirán a la compañía británica competir con garantías de éxito frente a los fabricantes de software de indexación que disfrutan de una mayor popularidad.
Muscat Ltd. Unit D, The Westbrook Centre, Milton Road, Cambridge CB4 1YG. Reino Unido.
Tel: +44-122-371 50 00; fax: 371 50 01
http://www.muscat.com
http://www.tradeuk.com
http://www.muscat.com/labs
Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1998/noviembre/muscat_indexacion_de_intranets_y_web_sites_corporativos.html