Representación analógica y digital de audio

Formatos de audio
Los archivos de audio poseen diferentes formatos dependiendo de con qué herramientas o aplicaciones y con qué fines fueron creados. Al trabajar con una determinada aplicación, el software asigna una extensión dependiendo del tipo de archivo que se haya creado, con el fin de poder luego identificarlo.
Los principales formatos de audio -aunque algunos permiten reproducir vídeo- son:
Audio Interchange File Format (AIFF): creado por Apple se utiliza en los ordenadores Mac y las aplicaciones multimedia, pero no es muy común en la Web. Extensiones .aif(F) y .snd
Audio for Unix (AU): Creado por la compañía Sun y es un formato muy popular para muestras, que no está demasiado comprimido. Es uno de los más antiguos en de Internet, sobre todo en plataformas Unix. Extensión .au, uLaw y MuLaw
Audio-Video Interleaved (AVI): creado por Microsoft. No es un formato en sí mismo, sino un contenedor de audio/vídeo. Para visualizarlo se requiere tener instalados los codecs y el reproductor de Windows. Extensión .avi
Director (DIR): archivos creados por Macromedia Director. Extensiones .dir y .dxr
MIDI: Music Instrument Digital Interfase. Este tipo de archivos se generan mediante la utilización de sintetizadores para PC. Los archivos MIDI representan notas y otra información de secuencia para que pueda sintetizarse la música. Extensión .mid
MOD: este formato se originó en las plataformas Amiga, creadas por Commodore. Es otro tipo de formato para reproducir módulos digitales. A igual que MIDI, S3M, FAR o MTM, todos estos formatos contienen el modelo musical y una selección de muestras, para que la música del modelo pueda ser reproducida con el instrumento apropiado. Extensiones .mod y .dxr
MPEG Audio: creado por MPEG o Motion Pictures Experts Groups. Se trata de un estándar de formatos de compresión de audio que contempla 3 niveles diferentes de codificación-decodificación de la señal de audio (sólo MPEG-1 está terminado, los otros son aplicables, pero todavía en fase de ampliación):
1.MPEG-1: Codifica imágenes en movimiento y audio asociado para medios de almacenamiento digital hasta 1,5 Mbits/s.
2.MPEG-2: codificación genérica de imágenes en movimiento con información de audio asociada (MPEG-3: inicialmente tenía una aplicación a sistemas HDTV, pero ha sido incluido dentro de MPEG-2). En la actualidad se sigue trabajando en el formato MPEG-2 para alcanzar una espectacular comprensión de audio.
3.MPEG-4: codifica objetos audiovisuales.

OGG Vorbis: Se trata de un formato de compresión no propietario y por tanto, gratuito. Posee gran versatilidad para reproducirse en prácticamente cualquier dispositivo y ocupar muy poco espacio. Reduce el tamaño de un archivo de audio sin restarle calidad. Es similar a MP3. Extensión .ogg
Quick Time: desarrollado por Apple. Extensión .mov y .qt
Real Audio: creado por Real Networks es uno de los formatos más extendidos para la transmisión de formato continuado y por eso suele emplearse para escuchar la radio y noticias. El formato RealAudio streaming de audio suministra una calidad de AM con más de 14.4 Kbps cercano a la calidad de un CD sobre ISDN y LAN. Extensión .ra .ram .rm  Se precisa descargar un plug-ing para que pueda reproducirse el sonido, o el programa RealPlayer.
RMF (Rich Music Format): es un formato de audio de alta calidad, fundamentalmente para descarga y reproducción. Extensión: .rmf
VOC: es un formato muy poco flexible que apareció con las tarjetas de sonido SoundBlaster creadas por Creative, muy populares en los PCs. Extensión : voc
WAVE / RIFF (Rich Interchange File Format): el nombre completo para este formato es “RIFF WAVE” y es un formato desarrollado por Microsoft e IBM. Se trata de un sonido almacenado en forma de onda digitalizado (Waveform).  En general, se trata de archivos muy grandes, pero se puede variar la calidad del sonido para lograr archivos más pequeños. Su inclusión en Microsoft Windows lo ha hecho muy popular. Extensión .wav

Teorema de Nyquist (muestreo)
El teorema de muestreo de Nyquist-Shannon, también conocido como teorema de muestreo de Whittaker-Nyquist-Kotelnikov-Shannon, criterio de Nyquist o teorema de Nyquist , es un teorema fundamental de la teoría de la información, de especial interés en las telecomunicaciones.
Este teorema fue formulado en forma de conjetura por primera vez por Harry Nyquist en 1928 (“Certain topics in telegraph transmission theory”), y fue probado formalmente por Claude E. Shannon en 1949 (“Communication in the presence of noise”).

Afirma que cuando se muestrea una señal, la frecuencia de muestreo debe ser mayor que dos veces el ancho de banda de la señal de entrada, para poder reconstruir la señal original de forma exacta a partir de sus muestras. Si B es el ancho de banda de la señal y Fm es la frecuencia de muestreo, el teorema puede expresarse del siguiente modo:

Hay que notar que el concepto de ancho de banda no necesariamente es sinónimo del valor de la frecuencia más alta en la señal de interés. A las señales para las cuales esto sí es cierto se les llama señales de banda base, y no todas las señales comparten tal característica (por ejemplo, las ondas de radio en frecuencia modulada).
Si el criterio no es satisfecho, existirán frecuencias cuyo muestreo coincide con otras (el llamado aliasing).

Digitalización

El sonido es una onda continua que se propaga a través del aire u otros medios, formada por diferencias de presión, de forma que puede detectarse por la medida del nivel de presión en un punto. Las ondas sonoras poseen las características propias y estudiables de las ondas en general, tales como reflexión, refracción y difracción. Al tratarse de una onda continua, se requiere un proceso de digitalización para representarla como una serie de números. Actualmente, la mayoría de las operaciones realizadas sobre señales de sonido son digitales, pues tanto el almacenamiento como el procesado y transmisión de la señal en forma digital ofrece ventajas muy significativas sobre los métodos analógicos.

El proceso de digitalización se compone de dos fases: muestreo y cuantización.

En el muestreo se divide el eje del tiempo en segmentos discretos: la frecuencia de muestreo será la inversa del tiempo que medie entre una medida y la siguiente. En estos momentos se realiza la cuantización, que, en su forma más sencilla, consiste simplemente en medir el valor de la señal en amplitud y guardarlo. El teorema de Nyquist garantiza que la frecuencia necesaria para muestrear una señal que tiene sus componentes más altas a una frecuencia dada f es como mínimo 2f. Por tanto, siendo el rango superior de la audición humana en torno a los 20 Khz, la frecuencia que garantiza un muestreo adecuado para cualquier sonido audible será de unos 40 Khz. Concretamente, para obtener sonido de alta calidad se utilizan frecuencias de 44’1 Khz, en el caso del CD, por ejemplo, y hasta 48 Khz, en el caso del DAT. Otros valores típicos son submúltiplos de la primera, 22 y 11 Khz. Según la naturaleza de la aplicación, por supuesto, las frecuencias adecuadas pueden ser muy inferiores, de tal manera que el proceso de la voz acostumbra a realizarse a una frecuencia de entre 6 y 20 Khz. o incluso menos. En lo referente a la cuantización, es evidente que cuantos más bits se utilicen para la división del eje de la amplitud, más “fina” será la partición y por tanto menor el error al atribuir una amplitud concreta al sonido en cada instante. Por ejemplo, 8 bits ofrecen 256 niveles de cuantización y 16, 65536.

El margen dinámico de la audición humana es de unos 100 dB.
La división del eje se puede realizar a intervalos iguales o según una determinada función de densidad, buscando más resolución en ciertos tramos si la señal que se trata tiene más componentes en cierta zona de intensidad, como veremos en las técnicas de codificación.

El proceso completo se denomina habitualmente PCM (Pulse Code Modulation) y así nos referiremos a él en lo sucesivo. Se ha descrito de forma sumamente simplista, principalmente porque está ampliamente tratado y es sobradamente conocido, siendo otro el campo de estudio de este trabajo. Sin embargo, entraremos en detalle en todo momento que sea necesario para el desarrollo de la exposición.

FORMATOS DE AUDIO MÁS COMUNES

Esta es una descripción de los formatos de compresión de audio más usados hoy en día, sus ventajas, extensiones y principales usos:

ADVANCED AUDIO CODING(Codificación de Audio Avanzada)
Extensión: aac
Codificación estándar para audio reconocida por ISO en el patrón MPG-2. En teoría, almacena más que el MP3 en menos espacio, este es el formato de Audio que utiliza Apple para los archivos de audio que reproduce el IPED y que pueden comprarse a través de Internet.

WAV
Extensión: wav
Fue desarrollado por Microsoft e IBM y apareció por primera vez para el ambiente Windows en el año 1995. Los archivos de audio guardados en el formato de sonido Microsoft tienen esta extensión. Con el tiempo se convirtió en un estándar de grabación para música de Cd´s. Su soporte de reproducción es uno de los más importantes pues funciona en cualquier aplicación Windows y en equipos domésticos comunes con reproductor de Cd´s.

AU (Audio for Unix)
Extensión: au
Se utiliza en archivos de sonido con sistema Unix de Sun™ Microsystems and NeXT™ , la extensión AU viene de Audio, y también funciona como estándar acústico para el lenguaje de programación JAVA.

WMA (Windows Media Audio)
Extensión: Wma
Es la abreviación de Windows Media Audio. Es la Versión de Windows para comprimir Audio, muy parecido a MP3. No solo reduce el tamaño de archivos grandes, sino que también se adapta a diferentes velocidades de conexión en caso de que se necesite reproducir en Internet en Tiempo Real.

MIDI
Extensión: midi
Por sus siglas en ingles, quiere decir instrumento musical de interfaz digital, y es considerado el estándar para industria de la música electrónica. Es muy útil para trabajar con dispositivos como sintetizadores musicales ó tarjetas de Sonido. Por el tamaño resultante que ofrece su compresión, este formato es muy usado para reproductores que necesitan combinar archivos de audio y video, como los karaoke.

MPEG Moving Pictures Experts Group (Grupo de Expertos en Imágenes en Movimiento).
Extensión: mpeg, mpg, m1v, mp1, mp3, .mp2, .mpa, .mpe
Es el formato más importante de todos. Creado por un grupo de desarrolladores, cuyo fin era crear un sistema de compresión con la intención de reducir los archivos de video y audio. Opera bajo el auspicio de la Organización Internacional de Estándares (ISO). Por ejemplo, las películas en DVD, las transmisiones de tv digital y las de tv satelital utilizan el sistema de compresión MPEG, para llevar las señales audio y video en pequeños espacios. Incluye un subsistema de compresión de sonido llamado MPEG Layer 3, conocido por el mundo entero como MP3.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: