El profesional de la información


Octubre 1994

¿Cómo hacemos para entender lo que leemos?

Por Jaime Sarabia, Verba Logica

Jaime SarabiaEntender un documento es más que leer las palabras que lo forman: hay que interpretar, además, la estructura del documento. En forma de memorándum, nota, informe y de mil otros modos, la información, al plasmarse en documentos, tiende a adoptar formas constantes. La uniformidad de formas permite una gestión y recuperación de la información más fáciles.

Saber de antemano dónde va a aparecer el total o el importe del IVA en una factura simplifica la lectura, evita posibles errores y facilita el manejo de la información: pensemos tan sólo en un listado de facturas no encolumnado. Por otro lado el formato del documento determina en parte la información misma: una cifra en un determinado punto es el importe sin impuestos, en otro, con impuestos.

El grado de estructuración de la información es muy variable. En un extremo, la base de datos de un sgbd (sistema gestor de bases de datos) estrictamente dividida en tablas, registros, campos, con longitudes y tipos de datos predeterminados. En el contrario, una nota en post‑it (los papelitos amarillos autoadhesivos). Entre ambos extremos está la zona que cubre la mayor parte de los documentos más usuales.

Sistemas que entiendan la estructura

Sólo en la medida en que un sistema comprenda por sí mismo los documentos será capaz de gestionarlos y recuperarlos adecuadamente: Un programa que sólo sabe que el archivo X tiene una imagen con tal tamaño, de tal fecha, puede hacer menos con la información contenida en X que otro que sepa quién es el emisor, a quién va dirigido, cuál es el tema principal, con qué otros asuntos está relacionado el documento, etc. Por ello se plantea la cuestión de cómo acercarse a sistemas que entiendan la estructura de los documentos. Parece necesario, al menos,

  • que el sistema sea capaz de interpretar la sintaxis del documento, y
  • reproducir el sistema de conocimientos supuesto en el ser humano capaz de entender el documento.

La sintaxis del documento consiste en el conjunto de reglas y marcas que establecen qué es qué en el documento. Un rasgo sintáctico es la estructura encolumnada de una factura. O la secuencia ".-" que marca en una ficha bibliográfica los distintos campos de información: título, casa editorial, etc.

Sin embargo, la simple definición sintáctica de los documentos no basta. Una gran cantidad de datos necesarios para entender un documento no están en el papel mismo sino en la cabeza del usuario: si encontramos la indicación "IVA" sin cifra ni porcentaje utilizamos sin darnos cuenta una regla que aplica el tipo habitual a la operación de que se trate. O corregimos sin dificultades un dato como "IVA aplicado: 150%". Es posible hacerlo porque sabemos que el IVA normal no es ese. Un programa debe contar con ese mismo conocimiento si quiere entender el dato o no verse confundido por el error. Y con los sistemas para mantener actualizados esos conocimientos, si no quiere quedar obsoleto muy pronto.

Un caso concreto: las fichas bibliográficas

Son un ejemplo típico de documentos cuya información es tratable automáticamente: usan (muchos) formatos relativamente normalizados ─con normas ISO o nacionales o privadas─ y aceptablemente constantes. Durante los últimos dos años y medio Verba Logica ha desarrollado un sistema que sirve para

• analizar la información en ciertas clases de documentos bibliográficos (no sólo fichas, aunque es éste el caso que estudiamos aquí), y

• transformar la información de las fichas a un formato manejable por el nuevo Sistema de Gestión de Biblioteca,

El problema planteado es conocido y generalizable: la informatización de un dominio de información ─en este caso, el bibliográfico─ conlleva la necesidad de trasvasar los datos sobre papel ─las fichas─ a soporte magnético. El proceso, realizado manualmente, es lento y caro. Intentar hacerlo automáticamente es tentador. Lo crítico no es el paso de soporte papel a soporte magnético sino el cambio de formato de la información. Para hacerlo hay que entender la información en el formato original, aparte de conocer el formato de llegada. En la ilustración 1 se bosqueja el proceso que se ha diseñado para lograrlo:

Cuatro momentos son fundamentales:

  1. Lectura.
  2. Análisis del documento, traducción a notación normalizada.
  3. Validación
  4. Traducción al formato de llegada.

1. Lectura. El bajo coste hace recomendable la lectura automática (OCR, optical character recognition), en los casos en que es posible, aunque su inevitable secuela de errores ocasiona una complicación en los procesos posteriores. En ciertos casos los datos se han introducido por otros medios, que a menudo suponen un preprocesamiento automático. El producto de esta parte del proceso es una cadena de caracteres, plana.

Proceso

2. Análisis. Los problemas básicos de análisis de fichas son una variante de los que aparecen en cualquier otra clase de documentos:

  • Variaciones notables y frecuentes en la estructura de los documentos, incluso de la misma clase.
  • Frecuente corrupción de los datos originales, originados en la lectura automática o por otras causas, incluidos errores en los documentos originales. Aquí se incluyen las variantes estilísticas de las expresiones, que sin ser un error, suponen un problema similar.

También hay aspectos positivos:

  • Es frecuente disponer de una buena documentación sobre los formatos de los documentos (normas isbd, "Instrucciones..", Reglas prusianas (reglas de catalogación aprobadas en la convención de 1942), Conferencia de París, etc.) lo que simplifica reproducir esa parte de conocimientos supuestos en la interpretación de las fichas.
  • Las fichas tienen un grado de formateo muy alto, en general.

Enfrentarse con estos problemas aprovechando las ventajas supone diseñar un instrumento que sea fácilmente adaptable a cambios de formato en los documentos a la vez que mantiene constante un núcleo tan grande como posible para optimizar el esfuerzo de adaptación: el planteamiento ha sido el diseño de un lenguaje de descripción de documentos que permite construir expertos en los distintos formatos y que operan como analizadores de cada formato. El lenguaje integra:

  • un sistema de herramientas básicas (gramáticas de cláusulas definidas, metaprocedimientos, gramática fuzzy o difusa, etc.), usados como medios generales de expresión.
  • sistemas auxiliares para determinar el idioma del registro, eliminar ruido, establecer la estructura tipográfica del documento ─longitud de líneas, estructura de indentados, etc.
  • una serie de conceptos comunes como los de carácter útil/ruido, lexema (unidad de vocabulario con contenido semántico), tipos de lexema, etc.
  • un conjunto de bases de datos, en su mayoría léxicas y un sistema de gestión de las mismas que incluye la posibilidad de recuperación de datos por emparejamiento de ítems no idénticos: algo esencial a la hora de trabajar con entradas inexactas, el caso habitual.

Definición de expertos

Estos instrumentos operan en forma similar al shell o núcleo de un sistema de definición de sistemas expertos, con la particularidad de que el conocimiento aquí recogido es fundamentalmente lingüístico y biblioteconómico: cada experto es un analizador (parser), definido por medio del lenguaje de descripción de documentos, que conoce un tipo de catalogación bibliográfica y puede reconocer el formato de una clase de fichas ─y sus variantes─ y procesar la información que contienen. Hay dos transformaciones esenciales: del original a una especie de interlingua (lenguaje común intermedio), lo que hemos llamado notación uniforme, y de ésta al formato de llegada seleccionado.

Como hemos dicho, casi cada documento en un elenco presenta divergencias de estructura (aceptables o no para la definición oficial del formato) más o menos estables. A ello se suman los inevitables errores en una colección amplia de documentos y las variaciones de tipo estilístico: el número y tipo de campos en una ficha es variable, las marcas de fin de campo son relativamente laxas en su definición, el indicativo de páginas se escribe p o p. o pp. o pág. o ... En consecuencia la definición de un experto debe, sin ser de tamaño excesivo para no perder eficacia, evitar dos peligros contrapuestos: usar un conjunto de reglas demasiado restrictivo, lo que llevaría a requerir intervención manual en más casos de los necesarios; y ser demasiado laxo en la definición del formato, lo que haría más problemática la detección de errores. El problema se hace agudo porque se llega pronto a un estadio en que la modificación de las reglas del experto es inviable: si se modifica un subconjunto para que sea aceptable una variedad de documentos, deja de ser reconocible otra variedad que antes se analizaba sin problemas. Por ello los expertos contienen, junto con el conocimiento del formato, un sistema de procedimientos que controlan la consistencia y completud de los análisis realizados, y que pueden llegar a modificarlos. Estas estrategias constituyen parte del sistema de autocorrección.

3. Validación. Dos problemas se tratan de resolver en este punto:

  • el planteado por la aludida impureza de los datos
  • la necesidad de mantener actualizados los conocimientos generales del sistema

Sólo los documentos que traspasan los filtros de consistencia y completud a que hemos aludido continúan el proceso automáticamente. El resto pasa al proceso de validación manual: se trata de un sistema que combina una serie de bases de datos, informes sobre errores y un editor especializado que permite controlar y modificar, llegado el caso, las decisiones tomadas por el experto. O su falta: el experto propone dudas irresolubles con los conocimientos de que dispone y deja que sea el usuario quien las resuelva ─aunque a veces tampoco pueda.

Un ejemplo: puede no haber datos suficientes en la ficha para saber si el título está en castellano o gallego, o puede tratarse de un título sobre cuyo idioma el experto nada sabe. En casos así el analizador indica este hecho y señala al usuario la necesidad de tomar una decisión. El proceso de validación permite también aumentar y adaptar el conocimiento del sistema, en los casos en que no es posible generarlo por procedimientos automáticos. Cuando no hay datos, se aportan en el momento de la validación y se incorporan inmediatamente al sistema. Eso hace que el sistema vaya sabiendo más con su utilización y que el rendimiento se incremente con el uso.

Las bases de datos y su gestor tienen ciertos rasgos característicos, de entre los que destacaríamos su capacidad de hacer búsqueda fuzzy (por aproximación), con el fin de proponer alternativas válidas al usuario: éste no hace una búsqueda ciega de errores sino que trata sobre todo con los detectados por el sistema y ante éstos dispone de varias alternativas posibles que la máquina ha calculado por él. De esa forma el trabajo de validación tiene un rendimiento más alto.

Traductor al formato de llegada

4. Transformación al formato de llegada. Una vez declarada válida la información, se traduce desde la notación uniforme al formato de llegada. Los procedimientos traductores están definidos por medio de elementos del lenguaje de descripción, y a menudo involucran nuevos procesos de análisis de la información, deducción de datos implícitos y otras modificaciones. La utilización de una interlingua ofrece la posibilidad de traducir la misma información a distintos formatos de llegada sin tener que generar nuevos procesos de análisis.

Futuro

Laura es un intento con éxito, nos parece, más que razonable. Hay mucho por hacer, sin embargo. Cuatro clases de problemas nos parecen urgentes:

  1. Entrada de datos: aumento del rendimiento de la lectura automática
  2. Generalización del proceso: generalización del lenguaje de descripción
  3. Notación uniforme: formato flexible de uso general
  4. Validación: sistemas de corrección y aprendizaje mejorados

Estos son justamente los centros de interés del proyecto BiblioTECA que Verba Logica lidera en la actualidad, con financiación del Programa de Bibliotecas de la Comunidad Europea, conjuntamente con un equipo de instituciones públicas y privadas de España, Francia e Italia. El proyecto, circunscrito en su campo de prueba a documentación de interés bibliotecario, se plantea como objetivos:

  1. Mejorar el rendimiento del sistema de lectura automática.

    La situación actual no es buena en este aspecto: los programas de lectura automática (OCR) tienen un rendimiento muy bajo cuando la mecanografía de los documentos originales no es de primera calidad. Incluso en documentos de buena calidad, la lectura automática induce errores suficientes como para que el programa experto tenga que, no sólo entender lo que tiene delante, sino a menudo imaginar lo que debería haber. Hemos visto casos en que el "DIOS" original había sido leído automáticamente como "0105". Cuando se corrige, tan fácil y peligroso es no llegar como pasarse.

    Uno de los orígenes del problema es que los OCR al uso desconocen todo el contexto en que leen ─salvo el idioma, que es un dato poco fiable en documentos multilingües─. Cuando una persona lee, mantiene multitud de expectativas respecto a lo que se puede encontrar delante. Esto le permite corregir lo que sus ojos ven, incluso sin darse cuenta. Por el contrario, el experto sabe de la estructura del documento pero no puede leer los caracteres.

    El problema es cómo integrar ese conocimiento del experto en el sistema de lectura para que aquel guíe a ésta. En BiblioTECA, Matra Caps Systèmes (MCS) desarrolla, con la colaboración de Verba Logica y partiendo de su experiencia en lectura automática de documentos incluso manuscritos, un sistema de lectura automática especializado en el que exista una conexión entre el sistema de análisis y el de lectura, de modo que el conocimiento de la estructura de los documentos pueda ser utilizado en su lectura.
  2. Verba Logica trata, en el proyecto, de ampliar el campo de aplicación. Aunque la versión actual de Laura es capaz de tratar varios formatos de documentos, el campo potencial de aplicación es muy amplio, incluso restringiéndose al ámbito de la literatura de referencia. Un objetivo que parece bastante alcanzable es lograr un instrumento que permita generar los expertos adecuados de manera fácil y rápida: un sistema que interprete una descripción, de nivel tan alto como posible, de una clase de documentos como un experto para la clase.
  3. Si se quiere poder utilizar directamente la producción de los expertos y/o tener la posibilidad de que los traductores a formatos finales se definan fuera del resto del sistema es preciso usar una estructura precisa, flexible y expresada en un formalismo de uso general. En BiblioTECA se ha elegido el formato standard generalized markup language (sgml) como el marco sintáctico más apropiado. La biblioteca del Instituto Cervantes, la Unidad de Coordinación de Bibliotecas del Csic y Verba Logica son los encargados en BiblioTECA de la tarea de definir en sgml los elementos de una notación uniforme optimizada.
  4. No habrá pasado inadvertido que el problema que plaga el análisis de textos reales ─no tanto las muestras de laboratorio─ consiste en que los datos originales no son limpios. Por ello un instrumento de validación ─no sólo de corrección─ es esencial. Reducida a un mínimo la corrección necesaria, todavía es preciso que el usuario no tenga que buscar posibles errores sino que se vea orientado en todo momento a los puntos problemáticos.

Por otro lado, el sistema de aprendizaje del sistema debe ser tan potente como sea posible. BiblioTECA se enfrenta a estos problemas con el concurso de las bibliotecas asociadas como usuarios cualificados que han de determinar la forma apropiada de los sistemas de validación y en general todo el interface del sistema, mientras que Verba Logica y MCS son los encargados de su implementación.

Cuando, dentro de un año, el proyecto llegue a su fin, habremos dado un importante paso adelante en el camino de conseguir un sólido instrumento de análisis de información documental: un instrumento que nos acerque a la meta de conseguir una gestión eficaz de los documentos, basado en el tratamiento inteligente, es decir, comprensivo, de la información que contienen.

Jaime Sarabia Álvarez-Ude. Verba Logica. Depto. de Lógica y Filosofía de la Ciencia. Facultad de Filosofía. Univ. Complutense de Madrid. 28040 Madrid.

Tel.: +34-1-394 52 68; fax: 544 71 38

Correo-e: jaimesarabia ARROBA filos.ucm.es

Nota: Verba Logica es un grupo de investigación del Dpto. de Lógica de la Universidad Complutense de Madrid especializado en sistemas de gestión y procesamiento de documentación textual, que trabaja por iniciativa propia o bajo contrato de otras entidades. El proyecto que se describe se ha desarrollado bajo los auspicios del Vicerrectorado de Investigación de la UCM y con la colaboración ‑entusiasta─ de su Biblioteca. A ambos nuestro agradecimiento.

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1994/octubre/cmo_hacemos_para_entender_lo_que_leemos.html