Octubre 1994
¿Cómo hacemos para entender lo que leemos?
Por Jaime Sarabia, Verba Logica
Entender un documento es más que leer las palabras que
lo forman: hay que interpretar, además, la estructura del
documento. En forma de memorándum, nota, informe y de mil
otros modos, la información, al plasmarse en documentos,
tiende a adoptar formas constantes. La uniformidad de formas
permite una gestión y recuperación de la
información más fáciles.
Saber de antemano dónde va a aparecer el total o el importe del IVA en una factura simplifica la lectura, evita posibles errores y facilita el manejo de la información: pensemos tan sólo en un listado de facturas no encolumnado. Por otro lado el formato del documento determina en parte la información misma: una cifra en un determinado punto es el importe sin impuestos, en otro, con impuestos.
El grado de estructuración de la información es muy variable. En un extremo, la base de datos de un sgbd (sistema gestor de bases de datos) estrictamente dividida en tablas, registros, campos, con longitudes y tipos de datos predeterminados. En el contrario, una nota en post‑it (los papelitos amarillos autoadhesivos). Entre ambos extremos está la zona que cubre la mayor parte de los documentos más usuales.
Sistemas que entiendan la estructura
Sólo en la medida en que un sistema comprenda por
sí mismo los documentos será capaz de gestionarlos y
recuperarlos adecuadamente: Un programa que sólo sabe que el
archivo X tiene una imagen con tal tamaño, de tal fecha,
puede hacer menos con la información contenida en X que otro
que sepa quién es el emisor, a quién va dirigido,
cuál es el tema principal, con qué otros asuntos
está relacionado el documento, etc. Por ello se plantea la
cuestión de cómo acercarse a sistemas que entiendan
la estructura de los documentos. Parece necesario, al menos,
La sintaxis del documento consiste en el conjunto de reglas y marcas que establecen qué es qué en el documento. Un rasgo sintáctico es la estructura encolumnada de una factura. O la secuencia ".-" que marca en una ficha bibliográfica los distintos campos de información: título, casa editorial, etc.
Sin embargo, la simple definición sintáctica de los documentos no basta. Una gran cantidad de datos necesarios para entender un documento no están en el papel mismo sino en la cabeza del usuario: si encontramos la indicación "IVA" sin cifra ni porcentaje utilizamos sin darnos cuenta una regla que aplica el tipo habitual a la operación de que se trate. O corregimos sin dificultades un dato como "IVA aplicado: 150%". Es posible hacerlo porque sabemos que el IVA normal no es ese. Un programa debe contar con ese mismo conocimiento si quiere entender el dato o no verse confundido por el error. Y con los sistemas para mantener actualizados esos conocimientos, si no quiere quedar obsoleto muy pronto.
Un caso concreto: las fichas bibliográficas
Son un ejemplo típico de documentos cuya información es tratable automáticamente: usan (muchos) formatos relativamente normalizados ─con normas ISO o nacionales o privadas─ y aceptablemente constantes. Durante los últimos dos años y medio Verba Logica ha desarrollado un sistema que sirve para
• analizar la información en ciertas clases de documentos bibliográficos (no sólo fichas, aunque es éste el caso que estudiamos aquí), y
• transformar la información de las fichas a un formato manejable por el nuevo Sistema de Gestión de Biblioteca,
El problema planteado es conocido y generalizable: la informatización de un dominio de información ─en este caso, el bibliográfico─ conlleva la necesidad de trasvasar los datos sobre papel ─las fichas─ a soporte magnético. El proceso, realizado manualmente, es lento y caro. Intentar hacerlo automáticamente es tentador. Lo crítico no es el paso de soporte papel a soporte magnético sino el cambio de formato de la información. Para hacerlo hay que entender la información en el formato original, aparte de conocer el formato de llegada. En la ilustración 1 se bosqueja el proceso que se ha diseñado para lograrlo:
Cuatro momentos son fundamentales:
1. Lectura. El bajo coste hace recomendable la lectura automática (OCR, optical character recognition), en los casos en que es posible, aunque su inevitable secuela de errores ocasiona una complicación en los procesos posteriores. En ciertos casos los datos se han introducido por otros medios, que a menudo suponen un preprocesamiento automático. El producto de esta parte del proceso es una cadena de caracteres, plana.

2. Análisis. Los problemas básicos de
análisis de fichas son una variante de los que aparecen en
cualquier otra clase de documentos:
También hay aspectos positivos:
Enfrentarse con estos problemas aprovechando las ventajas supone
diseñar un instrumento que sea fácilmente adaptable a
cambios de formato en los documentos a la vez que mantiene
constante un núcleo tan grande como posible para optimizar
el esfuerzo de adaptación: el planteamiento ha sido el
diseño de un lenguaje de descripción de documentos
que permite construir expertos en los distintos
formatos y que operan como analizadores de cada formato. El
lenguaje integra:

Estos instrumentos operan en forma similar al shell o núcleo de un sistema de definición de sistemas expertos, con la particularidad de que el conocimiento aquí recogido es fundamentalmente lingüístico y biblioteconómico: cada experto es un analizador (parser), definido por medio del lenguaje de descripción de documentos, que conoce un tipo de catalogación bibliográfica y puede reconocer el formato de una clase de fichas ─y sus variantes─ y procesar la información que contienen. Hay dos transformaciones esenciales: del original a una especie de interlingua (lenguaje común intermedio), lo que hemos llamado notación uniforme, y de ésta al formato de llegada seleccionado.
Como hemos dicho, casi cada documento en un elenco presenta divergencias de estructura (aceptables o no para la definición oficial del formato) más o menos estables. A ello se suman los inevitables errores en una colección amplia de documentos y las variaciones de tipo estilístico: el número y tipo de campos en una ficha es variable, las marcas de fin de campo son relativamente laxas en su definición, el indicativo de páginas se escribe p o p. o pp. o pág. o ... En consecuencia la definición de un experto debe, sin ser de tamaño excesivo para no perder eficacia, evitar dos peligros contrapuestos: usar un conjunto de reglas demasiado restrictivo, lo que llevaría a requerir intervención manual en más casos de los necesarios; y ser demasiado laxo en la definición del formato, lo que haría más problemática la detección de errores. El problema se hace agudo porque se llega pronto a un estadio en que la modificación de las reglas del experto es inviable: si se modifica un subconjunto para que sea aceptable una variedad de documentos, deja de ser reconocible otra variedad que antes se analizaba sin problemas. Por ello los expertos contienen, junto con el conocimiento del formato, un sistema de procedimientos que controlan la consistencia y completud de los análisis realizados, y que pueden llegar a modificarlos. Estas estrategias constituyen parte del sistema de autocorrección.
3. Validación. Dos problemas se tratan de resolver
en este punto:
Sólo los documentos que traspasan los filtros de consistencia y completud a que hemos aludido continúan el proceso automáticamente. El resto pasa al proceso de validación manual: se trata de un sistema que combina una serie de bases de datos, informes sobre errores y un editor especializado que permite controlar y modificar, llegado el caso, las decisiones tomadas por el experto. O su falta: el experto propone dudas irresolubles con los conocimientos de que dispone y deja que sea el usuario quien las resuelva ─aunque a veces tampoco pueda.
Un ejemplo: puede no haber datos suficientes en la ficha para saber si el título está en castellano o gallego, o puede tratarse de un título sobre cuyo idioma el experto nada sabe. En casos así el analizador indica este hecho y señala al usuario la necesidad de tomar una decisión. El proceso de validación permite también aumentar y adaptar el conocimiento del sistema, en los casos en que no es posible generarlo por procedimientos automáticos. Cuando no hay datos, se aportan en el momento de la validación y se incorporan inmediatamente al sistema. Eso hace que el sistema vaya sabiendo más con su utilización y que el rendimiento se incremente con el uso.
Las bases de datos y su gestor tienen ciertos rasgos característicos, de entre los que destacaríamos su capacidad de hacer búsqueda fuzzy (por aproximación), con el fin de proponer alternativas válidas al usuario: éste no hace una búsqueda ciega de errores sino que trata sobre todo con los detectados por el sistema y ante éstos dispone de varias alternativas posibles que la máquina ha calculado por él. De esa forma el trabajo de validación tiene un rendimiento más alto.

4. Transformación al formato de llegada. Una vez declarada válida la información, se traduce desde la notación uniforme al formato de llegada. Los procedimientos traductores están definidos por medio de elementos del lenguaje de descripción, y a menudo involucran nuevos procesos de análisis de la información, deducción de datos implícitos y otras modificaciones. La utilización de una interlingua ofrece la posibilidad de traducir la misma información a distintos formatos de llegada sin tener que generar nuevos procesos de análisis.
Futuro
Laura es un intento con éxito, nos parece,
más que razonable. Hay mucho por hacer, sin embargo. Cuatro
clases de problemas nos parecen urgentes:
Estos son justamente los centros de interés del proyecto
BiblioTECA que Verba Logica lidera en la actualidad,
con financiación del Programa de Bibliotecas de la
Comunidad Europea, conjuntamente con un equipo de instituciones
públicas y privadas de España, Francia e Italia. El
proyecto, circunscrito en su campo de prueba a documentación
de interés bibliotecario, se plantea como objetivos:
Por otro lado, el sistema de aprendizaje del sistema debe ser tan potente como sea posible. BiblioTECA se enfrenta a estos problemas con el concurso de las bibliotecas asociadas como usuarios cualificados que han de determinar la forma apropiada de los sistemas de validación y en general todo el interface del sistema, mientras que Verba Logica y MCS son los encargados de su implementación.
Cuando, dentro de un año, el proyecto llegue a su fin, habremos dado un importante paso adelante en el camino de conseguir un sólido instrumento de análisis de información documental: un instrumento que nos acerque a la meta de conseguir una gestión eficaz de los documentos, basado en el tratamiento inteligente, es decir, comprensivo, de la información que contienen.
Jaime Sarabia Álvarez-Ude. Verba Logica. Depto. de Lógica y Filosofía de la Ciencia. Facultad de Filosofía. Univ. Complutense de Madrid. 28040 Madrid.
Tel.: +34-1-394 52 68; fax: 544 71 38
Correo-e: jaimesarabia ARROBA filos.ucm.es
Nota: Verba Logica es un grupo de investigación del Dpto. de Lógica de la Universidad Complutense de Madrid especializado en sistemas de gestión y procesamiento de documentación textual, que trabaja por iniciativa propia o bajo contrato de otras entidades. El proyecto que se describe se ha desarrollado bajo los auspicios del Vicerrectorado de Investigación de la UCM y con la colaboración ‑entusiasta─ de su Biblioteca. A ambos nuestro agradecimiento.
Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1994/octubre/cmo_hacemos_para_entender_lo_que_leemos.html