El profesional de la información


Octubre 1995

Sistemas multimedia: el vídeo digital

Por José A. Senso

Los sistemas multimedia no dejan de crecer, y su gran estrella, el vídeo digital, es, sin duda alguna, lo más impactante. Pero la pregunta que más tarde o más temprano nos hacemos es: ¿qué necesito tener para poder disfrutar del vídeo digital en mi ordenador?

Entre los problemas más frecuentes con los que nos encontramos cuando surge el tema del tratamiento y manipulación de imágenes en movimiento digitalizadas aparecen siempre, en un orden u otro, el espacio y la velocidad.

El problema de la falta de espacio, que todos hemos sufrido en alguna ocasión, se acentúa de manera significativa cuando se habla del almacenamiento de imágenes digitalizadas. Hay que tener en cuenta que una película digital de una hora de duración, con imágenes de 320x240 puntos y 24 bits por punto, requiere aproximadamente unos ¡20.000 megabytes! para ser almacenada. Aparte de esto hay que sumar el espacio que necesita la señal digitalizada de audio que, dependiendo de la calidad escogida, necesitará de un mayor o menor número de Mbytes.

La velocidad, una vez más, depende del tiempo que transcurra en la transferencia de información entre el dispositivo de almacenamiento y la memoria principal, teniendo en cuenta que ese tiempo afecta, de manera visible, a la calidad de la reproducción de la imagen, aumentando o disminuyendo el número de fotogramas o imágenes que se reproducen por segundo.

La aparición de Mpeg

Ante todos estos problemas, surgió la necesidad de crear un sistema que permitiese manipular información de este tipo de forma rápida y eficaz. Por ello, durante 1988 se creó un comité, denominado Moving picture experts group, que, de la mano de Hiroshi Yasuda y Leonardo Chairiglione, comenzó el desarrollo de una técnica para comprimir imágenes digitalizadas en movimiento y ficheros de audio digitalizado. Esta técnica, que se terminó de desarrollar en su primer nivel en 1992, se normalizó en 1993, convirtiéndose en la ISO/IEC 11172, dividida en cinco partes:

  1. Sistema: establece la sintaxis para la sincronización del vídeo y del audio.
  2. Vídeo: describe la sintaxis y semántica de los algoritmos utilizados para representar las imágenes.
  3. Audio: define tres clases de compresión de audio. La primera tiene una velocidad de 384 Kbyte por segundo y es similar a la utilizada por el Digital Compact Cassette; la segunda, con una velocidad de 224 Kbyte por segundo, se usa en el Video CD. La tercera se usa para las aplicaciones de audio de Internet y tiene una velocidad de 128 Kbyte por segundo.
  4. Test de conformidad: establece el nivel de conformidad entre el sistema, el vídeo y el audio.
  5. Software: contiene un ejemplo, en lenguaje C, del software de compresión y de compilación para vídeo y audio.

Prestaciones de Mpeg

A primera vista, lo que diferencia a este sistema de compresión del resto es que no sólo requiere un software, sino que necesita además un hardware específico, la tarjeta Mpeg.

La forma de trabajar de Mpeg es similar a la de otros sistemas de compresión: almacenar las diferencias que se producen entre dos imágenes correlativas y no el contenido total de las mismas. Gracias a esto, se obtiene una optimización de los recursos del sistema, con el consiguiente ahorro de espacio y velocidad de transferencia de datos que, sumado a la gran potencia de compresión que ofrece (del orden de 10), convierte a este sistema en una de las herramientas más sobresalientes que existen en el mercado.

Lo que realmente sorprende de este sistema es que el almacenamiento de las imágenes se realiza de forma aleatoria, no secuencial, de los fotogramas. Para recuperar los fotogramas, el formato emplea un sistema de referencias que, partiendo del primer fotograma, recorre toda la secuencia cuadro a cuadro hasta alcanzar la imagen deseada.

La norma Mpeg permite establecer diferentes porcentajes de compresión que se relacionan con el ancho de banda que requiere el reproductor. Para el lector de cd-rom, el ancho de banda por defecto es de 150 Kbytes por segundo, lo que significa que un paquete formado por una combinación de imagen y sonido digitalizados, comprimidos con el sistema Mpeg, alcanzará como máximo 1,2 Mbytes por segundo. Obviamente, si se trata de un lector de doble velocidad (300 Kbytes por segundo), o de cuádruple velocidad (600 Kbytes por segundo), ese paquete se duplicará o cuadruplicará.

Hay que tener en cuenta que, al igual que el resto de los sistemas, Mpeg consigue una mejor relación de compresión a costa de una pérdida en la calidad de la imagen comprimida con respecto al original.

Audio y vídeo

En Mpeg se encuentran definidos los componentes de audio y vídeo necesarios para su funcionamiento. En lo referente al vídeo, la norma acepta una gran variedad de formatos, siempre que sean compatibles con las normas Ntsc (usadas por los sistemas de televisión en Estados Unidos y Japón), creadas por el National Television Standards Committee, con 525 líneas por imagen, otras como la SIF (Standards Image Format), que define una resolución de 352x240 pixels, o el PAL (utilizado prácticamente en toda Europa), que produce 625 líneas por imagen (el número de líneas equivale al de píxels).

En cuanto al audio, la frecuencia de muestreo puede oscilar desde 32 hasta 48 Khz, con 16 bits por canal. En un reproductor de cd-rom, el muestreo se realiza a una frecuencia de 44,1 Khz.

Los niveles de la norma

El formato Mpeg tiene en la actualidad varios niveles, orientados a diferentes campos. El primero de ellos es el Mpeg-1, basado en ISO 11172. Trabaja con vídeo digital almacenado en soporte cd-rom, con una velocidad de transferencia de 150 Kb por segundo, permitiendo obtener 25 imágenes por segundo en sistema PAL y 30 en el Ntsc. Gracias a la baja exigencia de velocidad de transferencia que se requiere en este nivel, se pueden realizar videoconferencias en redes de área local Ethernet, con una velocidad de 10 Mb por segundo.

Durante un seminario celebrado en Nueva York en 1992 organizado por la Universidad de Columbia, el Moving Picture Experts Group completó la definición del segundo nivel, el Mpeg-2. El concepto sobre el que trabaja el Mpeg-2 es similar al Mpeg-1 y tiene como principal campo de acción la futura televisión digital por cable, permitiendo un régimen de velocidad de bits que oscila entre 4 y 9 Mbyte por segundo. La auténtica revolución que supone la aplicación de este sistema a la televisión digital es que permite la transmisión de cuatro canales al mismo tiempo. En la actualidad se estudia añadir diversos tipos de extensiones a este nivel, entre ellos el Digital Storage Media Command and Control, que actúa de interfaz entre el usuario y el terminal de vídeo.

Mpeg-2 se encuentra todavía en desarrollo. Si bien hasta la fecha no existe una norma que se encargue de su regulación, se está trabajando en un proyecto de norma que, hasta marzo de 1995 constaba de 9 partes y, una vez aprobada, se denominará ISO/IEC 13818.

Mpeg-3: ¿un fracaso?

En 1992 se realizaron los primeros trabajos prácticos sobre la Hdtv (High Definition Television). La Hdtv requería un sistema con una resolución de 1920x1080 y un régimen de velocidad de bits que oscilaba entre 20 y 40 Mbytes por segundo. Fue entonces cuando se pensó que una adaptación de la norma Mpeg podría ser la solución a todos los problemas que planteaba este nuevo proyecto: se estaba fraguando Mpeg-3.

Al mismo tiempo se estudiaban otras posibilidades en Europa y en Estados Unidos. En Europa, varios proyectos, como Hd-Divine y Vadis, demostraron que se podía conseguir una imagen com mayor calidad que la que se obtuvo en los primeros experimentos con el Mpeg-3. Paralelamente, en Estados Unidos, se produjo un consorcio entre Sarnoff, NBC, Philips y Thompson dedicado al estudio de las posibilidades de la televisión de alta definición que adaptó la norma Mpeg-2 y consiguió amoldarla a las necesidades de este nuevo sistema de televisión. Mpeg-3 se quedó en proyecto, y nunca llegó a desarrollarse. Actualmente los aspectos técnicos de la Hdtv forman parte de la norma Mpeg-2, concretamente del nivel High-1440.

Mpeg-4

Pensando concretamente en los sistemas de transferencia extremadamente bajos (64 Kb por segundo) comenzó a desarrollarse la norma Mpeg-4 a partir de un seminario celebrado en Bruselas en septiembre de 1993. La especificación en formato borrador está prevista para 1997 y, en 1998, se elaborará el proyecto de norma. La norma Mpeg-4 contará con un amplio abanico de posibilidades de aplicación: comunicación multimedia móvil interactiva, videoteléfono, telefonía móvil audiovisual, correo electrónico multimedia, sensores remotos, periódicos electrónicos, bases de datos multimedia interactivas, videotex multimedia, juegos, creación interactiva de imágenes, etc.

Su diversidad de aplicación es tal que en julio de 1994 se celebró un seminario en Grimstad (Noruega) en el que se reunieron expertos sobre distintas materias (desde sicología hasta realidad virtual, desde digitalización musical hasta visión y acústica), con el fin de valorar las posibilidades de aplicación y crear técnicas de codificación para la norma Mpeg-4.

Microsoft y Apple contraatacan

Además del sistema Mpeg, existen otros que no necesitan ningún complemento de hardware. Entre ellos, podemos citar los dos más destacados, Video y QuickTime; ambas herramientas permiten reproducir películas de vídeo.

Video es un programa para Windows desarrollado por Microsoft. Este software utiliza las librerías de enlace dinámico (DLL) típicas de Windows, y permite emplear algoritmos de compresión desarrollados por otros fabricantes. Los algoritmos más frecuentes son Microsoft Video 1, Cinepak e Indeo. Estas librerías se incluyen en la versión Windows 95.

Los ficheros que utiliza Video tienen la extensión .AVI (Audio Video Interleave), y contienen tanto audio como vídeo. Estos ficheros tienen una serie de parámetros que varían desde el tamaño de la ventana hasta el tipo de compresión, pasando por el número de FPS (frames per second o imágenes por segundo), el tiempo de grabación o la captura con o sin audio.

Con el fin de conseguir un mejor rendimiento de Video, Microsoft, en colaboración con Intel, ha desarrollado DCI (Direct Control Interface), un sistema capaz de acceder al hardware de la tarjeta gráfica del ordenador de forma directa.

QuickTime, desarrollado por Apple, posee como característica más destacada el ser un sistema multiplataforma, es decir, que sus ficheros pueden ser utilizados en ordenadores compatibles con IBM y en máquinas de Apple. Este software posee un sistema de acceso directo a la tarjeta gráfica, lo que posibilita un manejo más rápido. QuickTime tiene la capacidad de implementar diversos algoritmos de compresión, tales como Cinepak o Jpeg.

Los ficheros que utiliza este programa tienen la extensión .MOV, y permite, entre otras posibilidades, almacenar texto en formato ascii o incluir información musical en formato Midi (Musical Instrument Digital Interface). De momento se han detectado pequeños problemas de incompatibilidad con la edición de vídeo para Windows, aunque algunos programas permiten la creación de archivos .MOV.

Digitalización por muestreo

Las señales analógicas, que son las que captan nuestros sentidos, tienen forma de sinusoides o de conjuntos de sinusoides más o menos complicadas, como las que pueden ocasionarse por las vibraciones de una cuerda de guitarra, las del aire dentro del tubo de una flauta o -salvando las distancias- las ondulaciones de la superficie del agua al echar una piedra.

El proceso de convertir señales analógicas en las equivalentes señales digitales (sucesiones de 0 y 1) se llama digitalización.

Las señales analógicas se digitalizan muestreándolas, o sea, midiéndolas periódicamente. Pero, ¿con qué frecuencia debe realizarse esta medición?

Ello depende de la calidad o fidelidad que se quiera obtener en este proceso de transformación, aunque se ha demostrado que como mínimo, la frecuencia del muestreo debe ser el doble de la señal que se quiere digitalizar.

En sonido de alta fidelidad están presentes tonos o frecuencias de hasta 20 KHz, a pesar de que ya son inaudibles para la mayoría de los humanos -un Hertz (Hz) es una vibración o ciclo por segundo-. Esto significa que para que esas frecuencias no se pierdan hay que tomar muestras a 40 Khz.

El valor de cada una de las muestras se traduce en una serie de 16 bits, por lo que como resultado se obtienen flujos de:

40.000 x 16 = 640 Kbit/seg

Enlace del artículo:
http://www.elprofesionaldelainformacion.com/contenidos/1995/octubre/sistemas_multimedia_el_vdeo_digital.html