Red de Respuestas Legales - Conocimientos legales - Presente y compare formatos de audio (profesional).

Presente y compare formatos de audio (profesional).

Introducción al contenido: este artículo presenta la modulación de código de pulso, codificación WMA, codificación ADPCM, codificación LPC, codificación MP3, codificación AAC, codificación CELP, etc. , incluyendo comparación de ventajas y desventajas y principales áreas de aplicación.

Modulación de código de pulso (flujo de señal de audio digital original)

Tipo: audio

Desarrollado por ITU-T.

Ancho de banda requerido: 1411,2kbps.

Características: La información de la fuente de audio está completa, pero la redundancia es demasiado grande.

Ventajas: La información de la fuente de audio se conserva por completo y la calidad del sonido es buena.

Desventajas: Gran cantidad de información, gran volumen y demasiada redundancia.

Campos de aplicación: telefonía por Internet

Método de regalías: gratuito

Observaciones: en aplicaciones informáticas, la modulación de código de impulsos puede lograr la máxima fidelidad y se utiliza ampliamente. se utiliza para la conservación de materiales y la apreciación de la música, y también se utiliza en CD, DVD y nuestros archivos WAV comunes. Por lo tanto, la convención PCM se convirtió en codificación sin pérdidas, porque PCM representa el mejor nivel de fidelidad en audio digital. No significa que PCM pueda garantizar la fidelidad absoluta de la señal. Es muy fácil calcular la velocidad de bits de un flujo de audio PCM, frecuencia de muestreo × tamaño de muestra × número de canales bps. La frecuencia de muestreo es de 44,1 KHz, el tamaño de muestreo es un archivo WAV de modulación de código de pulso de 16 bits y la velocidad de datos es de 44,1 k × 16 × 2 = 141,2 kbps. Nuestros CD de audio comunes utilizan modulación de código de pulso y la capacidad de un CD solo puede contener 72 minutos de información musical.

WMA (Windows Media Audio)

Tipo: Audio

Fabricante: Microsoft Corporation

Ancho de banda requerido: 320 ~ 112 kbps (compresión 10 ~ 12 veces)

Características: cuando la velocidad de bits es inferior a 128 K, WMA funciona mejor entre casi todos los formatos de codificación con pérdida del mismo nivel, pero parece que 128 k es un umbral para WMA. Cuando la tasa de bits aumenta, la calidad del sonido no cambia mucho.

Ventajas: WMA funciona mejor cuando la velocidad de bits es inferior a 128 K y el archivo de audio codificado es muy pequeño.

Desventajas: WMA pierde demasiada calidad de sonido cuando la tasa de bits es superior a 128K. El estándar WMA no es abierto, está controlado por Microsoft.

Campos de aplicación: Telefonía por Internet

Método de comisión: se cobra por separado.

Nota: WMA, el nombre completo de Windows Media Audio, es un nuevo formato de audio lanzado por Microsoft, tan famoso como el formato MP3. Dado que WMA supera al MP3 en términos de relación de compresión y calidad de sonido, y es muy superior a RA (Real Audio), puede producir una mejor calidad de sonido incluso a bajas frecuencias de muestreo. Además, WMA cuenta con el fuerte respaldo de Microsoft Windows Media Player, por lo que obtuvo aplausos cuando se lanzó.

PCM Diferencial Adaptativo

Tipo: Audio

Desarrollado por ITU-T.

Ancho de banda requerido: 32 Kbps

Características: ADPCM (modulación de código de pulso diferencial adaptativo) combina las características adaptativas de APCM y las características diferenciales de los sistemas DPCM. Es una codificación de forma de onda de buen rendimiento.

La idea central es:

(1) Utilizar el pensamiento adaptativo para cambiar el tamaño del paso de cuantificación, es decir, utilizar un tamaño de paso de cuantificación pequeño para codificar pequeñas diferencias. , utilizando un tamaño de paso de cuantificación grande para codificar pequeñas diferencias. El tamaño del paso de cuantificación se utiliza para codificar diferencias grandes;

②Utilice valores de muestra anteriores para estimar el valor predicho de la siguiente muestra de entrada, de modo que La diferencia entre el valor real de la muestra y el valor predicho es siempre la más pequeña.

Ventajas: baja complejidad de algoritmo, baja relación de compresión (calidad de sonido de CD > 400 kbps) y el retardo de codificación y decodificación más corto (en comparación con otras tecnologías).

Desventajas: La calidad del sonido es media.

Campos de aplicación: Telefonía por Internet

Método de regalías: Gratis

Observaciones: ADPCM (Modulación de código de pulso diferencial adaptativo ADPCM) es un método para 16 bits (¿o superior? ) Un algoritmo de compresión con pérdida para datos de forma de onda de sonido. Los datos de 164 bits de cada muestra en el flujo de sonido se almacenan como 4 bits, por lo que la relación de compresión es 1:4. El algoritmo de compresión/descompresión es muy simple y ocupa poco espacio. una excelente manera de obtener un sonido de alta calidad.

Codificación predictiva lineal

Tipo: Audio

Fabricante:

Ancho de banda requerido: 2 Kbps-4,8 Kbps

Características: alta relación de compresión, gran cantidad de cálculos, baja calidad de sonido y bajo precio.

Ventajas: alto ratio de compresión y bajo coste.

Desventajas: gran cantidad de cálculo, mala calidad de voz y poca naturalidad.

Campos de aplicación: telefonía por Internet

Método de regalías: gratuito

Observaciones: la codificación paramétrica, también conocida como codificación de fuente de sonido, está en el dominio de la frecuencia u otro ortogonal dominio de transformación Extrae parámetros característicos de la señal fuente y los convierte en códigos digitales para su transmisión. La decodificación es el proceso inverso: transforma la secuencia digital recibida, restaura los parámetros característicos y luego reconstruye la señal de voz en función de los parámetros característicos. Específicamente, la codificación paramétrica intenta hacer que la señal de voz reconstruida sea lo más precisa posible extrayendo y codificando los parámetros característicos de la señal de voz, pero la forma de onda de la señal de voz reconstruida puede ser muy diferente de la forma de onda de la señal de voz original. Por ejemplo, la codificación predictiva lineal (LPC) y varias otras mejoras son codificación paramétrica. La velocidad de bits de codificación se puede comprimir a 2 Kbit/s-4,8 Kbit/s o incluso menos, pero la calidad de la voz sólo puede alcanzar el nivel medio, especialmente la naturalidad es baja.

Predicción lineal excitada por código

Tipo: Audio

Fabricante: Instituto Europeo de Normas de Telecomunicaciones (ETSI)

Ancho de banda requerido: 4 ~16 kbps.

Características: mejora la calidad del habla;

① Utiliza las características de enmascaramiento de la audición humana para ponderar sensorialmente la señal de error y mejorar la calidad subjetiva del habla. (2) La predicción del tono se mejora mediante el retraso fraccional, lo que hace que el habla sonora sea más precisa, especialmente mejorando la calidad de las voces femeninas.

③ Utilice el criterio MSPE modificado para encontrar el "mejor" retraso, lo que facilita la aparición de retraso del período de tono más suavizado

④ Ajuste el tamaño del vector de excitación aleatorio de acuerdo con la eficiencia de la predicción a largo plazo para mejorar la calidad subjetiva del habla

⑤ Utilice un adaptativo; más suave basado en la estimación de la tasa de error de bits del canal, que puede sintetizar voz muy natural en condiciones de alta tasa de error de bits del canal.

Conclusión:

(1) El algoritmo CELP puede lograr un efecto de compresión satisfactorio en un entorno de codificación de baja velocidad de bits.

②El uso de un algoritmo rápido puede reducir eficazmente la complejidad de CELP; el algoritmo lo hace completamente en tiempo real;

(3) ③CELP puede codificar con éxito varios tipos de señales de voz. Esta adaptabilidad es más importante para entornos reales, especialmente en segundo plano en presencia de ruido.

Ventajas: Proporciona voz clara con un ancho de banda muy bajo.

Desventajas:-

Campos de aplicación: telefonía por Internet

Método de regalías: gratuito

Observaciones: En 1999, la Asociación Europea de Normas de Comunicaciones (ETSI) ha lanzado un codificador de voz adaptativo de velocidad múltiple (AMR) basado en predicción lineal excitada por código (CELP), con una velocidad mínima de 4,75 kb/s para lograr calidad de comunicación. Predicción lineal excitada por código CELP es la abreviatura de Predicción lineal excitada por código. CELP es el algoritmo de codificación de voz de mayor éxito en los últimos 10 años. El algoritmo de codificación de voz CELP utiliza predicción lineal para extraer parámetros del tracto vocal, utiliza un libro de códigos que contiene muchos vectores de excitación típicos como parámetros de excitación y busca un vector de excitación óptimo en este libro de códigos cada vez que se codifica. this El número de secuencia en el libro de códigos.

CELP es adoptado por muchos estándares de codificación de voz. El estándar federal de EE. UU. FS1016 es el método de codificación de CELP, que se utiliza principalmente para comunicaciones seguras de voz de banda estrecha de alta calidad. Celp (predicción lineal excitada por código) Este es un algoritmo LPC simplificado conocido por su baja velocidad de bits (4800-9600 Kbps), calidad de voz clara y alta inmunidad al ruido de fondo. CELP es un esquema de codificación de compresión de voz ampliamente utilizado a velocidades de bits bajas a medias.

MPEG-1 Audio Capa 1

Tipo: Audio

Fabricante: MPEG

Ancho de banda requerido: 384 kbps (compresión 4x)

Características: Codificación simple.

El esquema de compresión de audio utilizado en casetes digitales, 2 canales y VCD es MPEG-1 capa 1.

Ventajas: en comparación con la tecnología de compresión en el dominio del tiempo, el método de compresión es mucho más complejo y la codificación Eficiencia y La calidad del sonido también mejora considerablemente, con el correspondiente aumento en la latencia de codificación. Puede lograr una calidad de sonido "completamente transparente" (estándar de calidad de sonido EBU)

Desventajas: requisitos de ancho de banda elevados.

Campos de aplicación: Telefonía por Internet

Método de regalías: Gratis

Observaciones: La codificación de compresión de audio MPEG-1 es el primer estándar internacional para la compresión de datos de audio de alta fidelidad , dividido en tres niveles:

-Capa 1 (Layer 1): codificación simple, utilizada para cintas de grabación de casetes digitales.

-Capa 2: Este algoritmo tiene complejidad media y se utiliza en radiodifusión de audio digital (DAB) y VCD, etc.

-La tercera capa: codificación compleja, utilizada para la transmisión de sonido de alta calidad en Internet, como la compresión de música MP3 10 veces.

Musicam (MPEG-1 Audio Layer 2, MP2)

Tipo: Audio

Fabricante: MPEG

Ancho de banda requerido: 256 ~ 192 kbps (compresión 6 ~ 8 veces)

Características: Complejidad de algoritmo moderada, utilizada para transmisión de audio digital (DAB) y VCD, con dos canales. Debido a su apropiada complejidad y excelente calidad de sonido, MUSICAM es ampliamente utilizado en la producción, intercambio, almacenamiento y transmisión de programas digitales como estudios digitales, DAB y DVB.

Ventajas: en comparación con la tecnología de compresión en el dominio del tiempo, el método de compresión es mucho más complejo, la eficiencia de la codificación y la calidad del sonido también mejoran enormemente y el retraso de la codificación también aumenta en consecuencia. Puede lograr una calidad de sonido "completamente transparente" (estándar de calidad de sonido EBU)

Desventajas:

Campos de aplicación: telefonía por Internet

Método de regalías: gratuito

Nota: Igual que la capa 1 de audio MPEG-1.

MP3 (MPEG-1 Audio Layer 3)

Tipo: Audio

Fabricante: MPEG

Ancho de banda requerido: 128 ~ 112 kbps ( comprimido 10~12 veces).

Características: Codificación compleja, utilizada para la transmisión de sonido de alta calidad en Internet, como compresión de música MP3 10 veces, 2 canales. MP3 es una tecnología de compresión híbrida basada en las ventajas de MUSICAM y ASPEC. En ese momento, la complejidad del MP3 era relativamente alta, lo que no favorecía la codificación en tiempo real. Sin embargo, debido a su calidad de sonido de alto nivel a bajas velocidades de bits, el MP3 se ha convertido en el favorito de la descompresión suave y la reproducción en red.

Ventajas: Alta relación de compresión, adecuada para comunicación por Internet.

Desventajas: cuando MP3 tiene una velocidad de 128 KB o menos, habrá una pérdida obvia de alta frecuencia.

Campos de aplicación: Telefonía por Internet

Método de regalías: Gratis

Observaciones: Igual que audio MPEG-1 capa 1.

Capa de audio MPEG-2

Tipo: Audio

Fabricante: MPEG

Ancho de banda requerido: Igual que MPEG-1 Capa 1, La capa 2 y la capa 3 son iguales.

Características: MPEG-2 utiliza el mismo códec que MPEG-1. La estructura de la capa 1, la capa 2 y la capa 3 es la misma, pero puede admitir sonido envolvente de 5.1 y 7.1 canales.

Ventajas: Soporta sonido envolvente de 5.1 canales y 7.1 canales.

Desventajas:-

Campos de aplicación: llamadas telefónicas por Internet

Método de comisión: se cobra por separado.

Nota: MPEG-2 utiliza el mismo códec que el sonido MPEG-1. La estructura de la capa 1, la capa 2 y la capa 3 es la misma, pero puede admitir sonido envolvente de 5.1 y 7.1 canales. sonido.

Codificación de audio avanzada

Tipo: Audio

Fabricante: MPEG

Ancho de banda requerido: 96-128 kbps.

Características: AAC puede admitir cualquier número de combinaciones de canales de audio de 1 a 48, incluidos 15 canales de efectos de baja frecuencia, canales de doblaje/multivoz y 15 canales de datos. Se pueden transmitir 16 programas simultáneamente y la estructura de audio y datos de cada programa se puede especificar arbitrariamente.

Las principales aplicaciones posibles de AAC se concentran en las comunicaciones por Internet, la transmisión de audio digital, incluida la transmisión en vivo por satélite y AM digital, así como en sistemas de cine y televisión digital.

AAC utiliza un núcleo de codificación de entropía muy flexible para transmitir datos espectrales codificados. Tiene 48 canales de audio principales, 16 canales de mejora de bajas frecuencias, 16 flujos de datos integrados, 16 doblajes y 16 arreglistas.

Ventajas: Admite múltiples combinaciones de canales de audio y proporciona una calidad de sonido de alta calidad.

Desventajas:-

Campos de aplicación: llamadas telefónicas por Internet

Método de comisión: cobro único

Observaciones: AAC se formó en 1997 Norma internacional ISO 13818-7. Codificación de audio avanzada: AAC se ha desarrollado con éxito y se ha convertido en una nueva generación de estándar de compresión de audio siguiendo el estándar de audio MPEG-2 (ISO/IEC13818-3).

En los primeros días de MPEG-2, originalmente se pretendía mantener su parte de codificación de audio compatible con MPEG-1. Pero más tarde, para cumplir con los requisitos de la radiodifusión y la televisión, se definió como un estándar de audio multicanal que puede obtener una mayor calidad. Este estándar es naturalmente incompatible con MPEG-1, por eso se llama MPEG-2AAC. En otras palabras, a primera vista, producir y reproducir AAC requiere el uso de herramientas completamente diferentes a las de MP3.

Recursos Humanos (Departamento)

Tipo: Audio

Fabricante: Philips

Ancho de banda requerido: 8Kbps

Características: El propósito es aumentar la capacidad de la red GSM, pero dañará la calidad de la voz debido a una frecuencia de red insuficiente; algunos grandes operadores han abierto este método en áreas densamente pobladas de las grandes ciudades para aumentar la capacidad.

Ventajas: Gran capacidad del sistema.

Desventajas: mala calidad de sonido

Campo de aplicación: GSM

Método de regalías: se cobra según circunstancias específicas

Nota: HR mitad de tarifa es un método de codificación de voz GSM.

Priest

Tipo: Audio

Fabricante: Philips

Ancho de banda requerido: 13 Kbps

Características: Es un método de codificación de comunicación común para teléfonos móviles GSM y puede alcanzar una calidad de comunicación de voz de aproximadamente 4,1 (la UIT estipula que la calidad de comunicación de voz Qos es una puntuación total de 5).

Ventajas: Se ha mejorado la calidad de la voz.

Desventajas: Se reduce la capacidad del sistema.

Campos de aplicación: GSM

Método de regalías: cobrado según circunstancias específicas

Observaciones: la tarifa completa FR es un método de codificación de voz GSM.

Informe de fallo electrónico

Tipo: Audio

Fabricante: Philips

Ancho de banda requerido: 13 Kbps

p>

Características: Se puede utilizar para codificación y transmisión de voz de teléfonos móviles GSM basada en una velocidad completa de 13 Kbps, logrando una calidad de voz mejor y más clara (cerca de Qos4.7). El teléfono sólo puede funcionar con un proveedor de servicios de red para habilitar esta función de red.

Ventajas: Buena calidad de sonido.

Desventajas: El proveedor de servicios de red necesita activar esta función de red, lo que reduce la capacidad del sistema.

Campos de aplicación: GSM

Método de regalías: cobrado según circunstancias específicas

Observaciones: tarifa completa mejorada EFR, un método de codificación de voz de la red GSM.

Velocidad múltiple adaptativa

Tipo: Audio

Fabricante: Philips

Ancho de banda requerido: 8 Kbps (4,75 Kbps ~ 12,2 Kbps)

Características: La voz puede reemplazar el silencio, suavizar el ruido, admitir transmisión intermitente y detectar voz dinámicamente. Puede proporcionar efectos de voz de alta calidad en diversas condiciones de red.

Ventajas: Excelente calidad de sonido.

Desventajas:-

Campo de aplicación: GSM

Método de regalías: recaudado según circunstancias específicas

Observaciones: GSM-ASM es un Estándar de audio muy utilizado en redes GPRS y W-CDMA. GSM-AMR se define en la especificación ETSI GSM06.90. La codificación de voz AMR es el estándar de codificación predeterminado para GSM2+ y WCDMA, y es el estándar de codificación de voz para el sistema de comunicación inalámbrica de tercera generación. El estándar GSM-AMR se basa en la codificación ACELP (Predicción lineal excitada algebraicamente). Puede proporcionar efectos de voz de alta calidad en una amplia gama de condiciones de transmisión.

EVRC (Enhanced Variable Rate Coder)

Tipo: Audio

Fabricante: Qualcomm Communications Corporation (Qualcomm).

Ancho de banda requerido: 8 Kbps o 13 Kbps.

Características: Soporta tres velocidades de bits (9,6 Kbps, 4,8 Kbps y 1,2 Kbps), supresión de ruido y filtrado de correo electrónico. Puede proporcionar efectos de voz de alta calidad en diversas condiciones de red.

Ventajas: Excelente calidad de sonido.

Desventajas:-

Campos de aplicación: CDMA

Método de regalías: recopiladas según circunstancias específicas

Observaciones: la codificación EVRC se usa ampliamente en la red CDMA. El estándar EVRC sigue el contenido de TIA IS-127. La codificación EVRC se basa en el estándar RCELP (Predicción lineal excitada por código relajado). La codificación puede funcionar a una velocidad de 1 (171 bits/paquete), una velocidad de 1/2 (80 bits/paquete) o una velocidad de 1/8 (16 bits/paquete). Bajo pedido también puede producir 0 bits/paquete.

Predicción lineal estimulada por código de paso alto.

Tipo: Audio

Fabricante: Qualcomm Communications Inc. (Qualcomm).

Ancho de banda requerido: algoritmo de codificación de voz de 8k (puede funcionar a velocidades fijas como 4/4,8/8/9,6 Kbps y puede funcionar a velocidades variables entre 800 Kbps y 9600 Kbps).

Características: Utilice umbrales adecuados para determinar la tasa requerida. QCELP es un algoritmo de codificación de voz de 8k (puede proporcionar una calidad de compresión de voz cercana a 13k a una velocidad de 8k). Esta es una codificación de voz de velocidad variable, una tecnología de optimización basada en las características del habla humana (debemos poder entender que en la comunicación y la comunicación diaria, no siempre hablamos de manera constante, los audios intermitentes y diferentes son todos humanos naturales). expresiones).

Ventajas: voz clara, bajo ruido de fondo, gran capacidad del sistema.

Desventajas: No es gratuito

Campo de aplicación: CDMA

Método de pago de regalías: paga una tarifa anual por el derecho de uso.

Observaciones: QCELP, predicción lineal excitada por código Qualcomm (codificación de predicción lineal excitada de Qualcomm). El algoritmo de codificación de voz patentado de Qualcomm Communications es el estándar de codificación de voz (IS95) para teléfonos móviles digitales (CDMA) de segunda generación de América del Norte. Este algoritmo no sólo puede funcionar a una velocidad fija de 4/4,8/8/9,6 kbit/s, sino también a una velocidad variable entre 800 bit/s y 9600 bit/s. El algoritmo QCELP se considera el más eficiente. Hasta ahora, una de las características principales del algoritmo es el uso de umbrales adecuados para determinar la tasa requerida. El umbral cambia con el nivel de ruido de fondo, de modo que se suprime el ruido de fondo y se puede obtener una buena calidad de voz incluso en entornos ruidosos. La voz de CDMA 8Kbit/s es similar a la voz de GSM 13mbit/s. CDMA utiliza una serie de tecnologías como la codificación QCELP, con voz clara y bajo ruido de fondo. Su rendimiento es significativamente mejor que el de otros sistemas de comunicación móvil inalámbricos y la calidad de voz es comparable a la de los teléfonos con cable. La radiación inalámbrica es muy baja.

Este artículo proviene de: I Love R&D Network (52RD.com)-R & D Base Camp

Fuente detallada:/blog/detail_blog_zcy_lhj_. 20876.html.