El profesional de la información


Noviembre 1996

Sistema de dictado personal VoiceType 3.0

El trabajo de desarrollo realizado por IBM España, iniciado en 1990, ha sido fundamental para recuperar el tradicional retraso que la lengua española padecía respecto a estas tecnologías frente a otros idiomas.

Las versiones en las otras lenguas peninsulares (catalán, euskera y gallego) no se esperan para antes de 1998.

En los años 70, IBM puso en marcha un ambicioso proyecto con el fin de lograr que el ordenador fuera capaz de recoger, procesar y traducir el lenguaje hablado. Para ello creó un equipo de expertos en lingüística e informática en su centro de investigación Thomas J. Watson, de Nueva York. A este equipo le siguieron otros similares en otros países, entre ellos España. Hoy IBM ha acumulado una amplia experiencia en el ámbito de la tecnología informática de la lengua y dispone de avanzados sistemas de reconocimiento del habla en los idiomas inglés, castellano, alemán, francés e italiano.

Durante los últimos años, la sustancial mejora en las capacidades de proceso del hardware y en el desarrollo de los algoritmos necesarios (conjunto de instrucciones que indican al sistema cómo interpretar lo que "escucha") han permitido avanzar rápidamente hasta conseguir sistemas capaces de reconocer el habla.

Dictando un texto. Las últimas palabras pronunciadas (en negro) serán dadas por definitivas por el sistema si encajan con lo que se diga a continuación.

El tratamiento del lenguaje natural a través del ordenador constituye una de las líneas de investigación más estratégicas y vanguardistas de la actual industria informática. El objetivo es hacer que el ordenador pueda entender, generar o traducir lenguas naturales, de donde se derivan implicaciones y posibilidades enormes.

Si el fin último es conseguir que el usuario pueda conversar con el ordenador de la manera más aproximada posible a como lo hace con otras personas, en el camino surgen aplicaciones tan útiles como herramientas lingüísticas de ayuda a la escritura, la traducción y la enseñanza de idiomas.

Un producto práctico

En 1994 IBM anunció en España el inicio de la comercialización de su nuevo desarrollo de software Sistema de Dictado Personal, que, con un PC, permite convertir en texto escrito cualquier tipo de discurso hablado, así como pilotar oralmente el ordenador y navegar simplemente con la voz por los distintos menús de cualquiera de sus aplicaciones.

En julio de 1996, IBM ha sacado la nueva versión VoiceType 3.0 para Windows 95, que incorpora importantes mejoras junto con una sustancial reducción de coste, al no ser necesaria ya una tarjeta de sonido especial sino cualquiera de las disponibles en el mercado (Mwave, Sound Blaster o compatible).

Con una velocidad de dictado de hasta 100 palabras por minuto, este sistema puede reconocer vocabularios de varios miles de palabras. Inicialmente, la nueva versión dispone de un léxico básico de 42.000 palabras, a las que cada usuario puede añadir otras 20.000 adicionales con objeto de adaptarlo mejor a sus propias necesidades de expresión.

El Sistema de Dictado está basado en complejos métodos probabilísticos y modelos lingüísticos. La conversión de la palabra hablada en texto escrito se realiza a través de sofisticados algoritmos que aíslan, identifican e interpretan los componentes fonéticos individuales del habla humana. Este proceso resulta muy eficaz en la práctica.

A diferencia de la versión anterior, el sistema identifica desde un principio el 90% del habla de cualquier usuario, sin entrenamiento previo. Si antes de empezar se dicta a la máquina un texto de 15 min., que permite al ordenador memorizar el modelo de voz y las peculiaridades del acento del usuario, el nivel de reconocimiento aumenta al 98%.

El sistema, por ejemplo, es capaz de elegir correctamente entre palabras homófonas, como "a" y "ha", y diferenciar el signo de puntuación "," de la palabra "coma".

En la pruebas realizadas por nuestra Redacción ha sido curioso constatar cómo a medida que se avanzaba en el dictado de determinadas frases el sistema "recapitulaba" y "decidía" que la palabra de pronunciación similar que encajaba mejor en el contexto era otra, acertando la correcta en la mayoría de los casos.

Por ejemplo, la palabra "cuenca" podía quedarse tal cual si cerca se pronunciaba "río" o "fluvial", convertirse en "Cuenca" si iba precedida de "a", convertirse en "cuenta" si antes o después aparecía "banco" o "bancaria", etc.

Luis de Sopeña, doctor en Física, es director del Depto. de Lingüística de IBM España desde 1989

En los primeros días de uso hay que ir enseñando al sistema algunas palabras. Así, por ejemplo, en nuestras pruebas se produjeron estos errores:

  • documentalistas = documentales tras
  • Internet = informé
  • intranet = integrante
  • directorio = director ello
  • cd-rom = federación
  • online = pondrán
  • internautas = entrar mantas

Enseñar cada palabra errónea al sistema cuesta sólo unos segundos: se señala en la pantalla con el ratón (con lo cual se oye por el altavoz tal y como se ha pronunciado) y por el teclado se escribe con la ortografía correcta. A partir de este momento el sistema ya reconocerá la palabra.

Una gran ventaja de usar VoiceType es que prácticamente hace desaparecer los errores ortográficos: los que dudan de los acentos, las ges y las jotas, y casi todas las bes y las uves -el contexto ayuda a encontrar la palabra homófona correcta-, lo tienen ahora más fácil.

Sin embargo también puede ocurrir que de vez en cuando interprete un verbo por otro que también haga la frase gramaticalmente adecuada. Este tipo de error puede ser más difícil de detectar al revisar el texto.

Manejo

Basta con que el usuario dicte al sistema a través de un micrófono (generalmente de casco, con el fin de tener las manos libres), con una mínima pausa de 0,04 centisegundos entre cada palabra -esto de hablar como un robot también requiere cogerle el hábito-, para que sus palabras vayan apareciendo automáticamente en la pantalla en forma de texto sin necesidad de ningún tipo de manipulación.

Una vez finalizada la operación de dictado, el texto obtenido puede ser editado y utilizado como cualquier otro fichero informático, pudiendo así mismo incorporarse directamente a una amplia variedad de aplicaciones.

Además, mientras se dicta es posible consultar otros textos o documentos con total libertad, ya que el sistema permite trabajar con las manos y la vista libres.

Se pueden obtener resultados inmediatamente, pero llegar a dominar el sistema, memorizando y usando con soltura la terminología que la máquina entiende (mandatos, signos de puntuación, deletreo, etc.) necesita algunas horas o días. Sin embargo estamos seguros de que a la larga pueden obtenerse sustanciales mejoras de comodidad y ahorro de tiempo en la habitual tarea de introducir textos en el ordenador.

En IWE-46, jul.-ag. 1996, p. 1-5, "El Impi en la era Internet" se explicó el uso cotidiano que se hace en el Instituto de la Pequeña y Mediana Empresa Industrial del VoiceType de IBM para producir bases de datos.

La posibilidad de controlar las funciones del ordenador a través de la voz humaniza y simplifica su uso. El Editor de Acción de Voz con que cuenta el sistema, permite crear macroinstrucciones verbales que pueden sustituir o complementar a los habituales comandos o el manejo por medio del ratón.

Un usuario, por ejemplo, podría preparar el sistema para que al decirle "Buenos días" abriera automáticamente las aplicaciones con las que empieza a trabajar cada día.

Requisitos

El nuevo Sistema de Dictado IBM requiere un PC con Pentium a 90 MHz, y caché de 256 KB L2 o superior.

Tarjeta de sonido Mwave o compatible con Sound Blaster.

16 MB de RAM.

35 MB de espacio libre en disco (para cada vocabulario adicional se necesitan otros 25 MB).

El micrófono se provee junto al cd-rom del sistema.

Uso médico y jurídico

IBM ha desarrollado dos variantes para los colectivos médico y jurídico. Se trata de aplicaciones específicas que permiten reconocer de forma automática el vocabulario propio del mundo de la medicina (28.000) y de las profesiones jurídicas (42.000).

Precio

La versión 3 del VoiceType para Windows 95 cuesta 109.000 PTA (más 16% de IVA).

IBM España. Santa Hortensia 26-28. 28002 Madrid.

Tel.: +34-1-397 57 52; fax: 519 39 87

lsopena ARROBA vnet.ibm.com

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1996/noviembre/sistema_de_dictado_personal_voicetype_30.html