Red de Respuestas Legales - Conocimientos de patentes - Formatos comunes para compresión con pérdida

Formatos comunes para compresión con pérdida

——MP3(MP3PRO\MP3SURROUND), AAC(*.3gp/*.mp4/*.m4a), ATRAC3/ATRAC3+(*.aa3).

Primero comprendamos el principio de compresión de audio: utilizar las características psicoacústicas de la audición humana (características de enmascaramiento espectral y características de enmascaramiento de tiempo, etc.) y la capacidad limitada del oído humano para resolver la amplitud, la frecuencia y el tiempo de la señal. , Todas las frecuencias que son insensibles al oído no están codificadas ni transmitidas, es decir, todas las partes que no contribuyen a la capacidad del oído humano para distinguir la intensidad, el tono y la dirección de la señal de sonido (llamadas partes irrelevantes o partes irrelevantes). no están codificados ni transmitidos. Al codificar la parte insensible, se permite una gran distorsión de cuantificación, que es inferior al umbral de audición (es decir, el volumen más bajo que el oído humano puede oír) y sigue siendo insensible para el oído humano. La compresión de audio aprovecha estas propiedades para funcionar. 1. Curva de igual volumen

La sensibilidad del oído humano cambia con la frecuencia. Es decir, dos tonos con la misma potencia pero con diferentes frecuencias suelen sonar diferente. Se puede ver en la curva de volumen igual que el oído humano es más sensible a la frecuencia de 4 KHz, es decir, el nivel de presión sonora (sonoridad) que se puede detectar a 4 KHz no se puede detectar en otras frecuencias. Esto proporciona distorsión en algunas frecuencias menos sensibles.

2. Protección

Aprendimos sobre protección en física de la escuela secundaria. Es la señal de sonido fuerte la que enmascara la señal de sonido débil, haciéndonos incapaces de detectarla. Además, el efecto de protección es fuerte cuando dos sonidos están próximos en tiempo y frecuencia. Por lo tanto, no necesitamos codificar ni transmitir la parte enmascarada al codificar. De esta manera, todavía no hay una gran pérdida en la calidad del sonido y no es fácil de detectar para el oído humano.

3. Banda de frecuencia crítica

Para la audición humana, las características perceptivas del sonido no cambian linealmente con la frecuencia (la audición humana no es tan buena), pero pueden utilizar una serie de frecuencias limitadas. Representadas por bandas de frecuencia, estas bandas de frecuencia se denominan bandas de frecuencia críticas. En pocas palabras, toda la banda de frecuencia se divide en varios segmentos. En cada banda de frecuencia, la percepción auditiva del oído humano es la misma, es decir, las características psicoacústicas son las mismas.

De todos modos, la esencia de la codificación es el algoritmo. 1. MP3 (MP3 pro \ MP3 envolvente)

MP3 debe considerarse el formato de audio digital comprimido con pérdida más utilizado. Su nombre completo es MPEG (Moving Picture Experts Group) Audio Layer-3. Un formato de audio digital comprimido con pérdida desarrollado por el Instituto Fraunhofer en Alemania en 1987 y patentado en 1989. No es perfecto al principio, más bien se parece a un marco de estándares de codificación que la gente debe mejorar. En 1992, esta tecnología se incorporó a la especificación MPEG y se denominó oficialmente MP3.

Los archivos MP3 se componen de fotogramas y los fotogramas son la unidad más pequeña de archivos MP3. ¿Qué es un marco? ¿Recuerdas cómo se creó la animación original? Se cambian diferentes imágenes continuas para lograr efectos dinámicos. Cada imagen es un "cuadro", pero la diferencia es que los cuadros en MP3 graban datos de audio en lugar de datos gráficos. La velocidad de fotogramas de MP3 es de aproximadamente 30 fotogramas por segundo.

Cada cuadro consta de un encabezado de cuadro y datos de cuadro. El encabezado de cuadro registra la información básica del cuadro, incluidos los indicadores de velocidad de bits y los indicadores de frecuencia de muestreo (esto es muy importante para comprender los métodos de codificación ABR y VBR). . Los datos de fotograma, como su nombre indica, registran los datos de audio principales.

Lo anterior es la base de la codificación MP3, pero de hecho los primeros codificadores eran muy imperfectos, el algoritmo de compresión era casi tosco y la calidad del sonido no era la ideal. La calidad del sonido del MP3 ha dado dos pasos adelante: la introducción de modelos perceptivos y la aplicación de la tecnología VBR.

PD: VBR es la abreviatura de variableBitrate, que significa relación variable. Es decir, al comprimir archivos MP3, la velocidad de bits de compresión se reducirá automáticamente cuando la relación sea alta y la velocidad de bits se reducirá automáticamente. aumenta cuando el requisito de velocidad de bits es bajo. El propósito de esto es aumentar la velocidad de reproducción de archivos en línea y reducir los recursos del sistema ocupados durante la reproducción local... Este es un algoritmo desarrollado por Xing, que realiza una codificación de alta tasa de bits de partes complejas de una canción. Aunque la idea es buena, desafortunadamente el algoritmo del codificador Xing es muy pobre y la calidad del sonido está lejos de CBR. Afortunadamente, Lame optimiza perfectamente el algoritmo VBR, convirtiéndolo en el mejor modo de codificación para MP3. Este es un método que tiene en cuenta el tamaño del archivo y al mismo tiempo garantiza la calidad, y se recomienda el método de codificación.

El MP3 puede sobrevivir hasta nuestros días, pero su desarrollo no se ha detenido. 2006 54 38+0 El 14 de junio, Thomson de Francia y RCA de Estados Unidos lanzaron conjuntamente un nuevo formato de compresión: MP3PRO. MP3PRO se mejora sobre la base de la tecnología MP3 y adopta la tecnología de mejora de codificación y decodificación desarrollada por CodingTechnologies. Esta tecnología se llama SBR (SpectralBandReplication). Al crear archivos MP3PRO, el codificador divide el audio en dos partes. Una parte consiste en separar la parte de baja frecuencia de los datos de audio y codificarla con tecnología MP3 tradicional para obtener una transmisión de audio MP3 normal. Esto permite que el codificador de MP3 se centre en la compresión de señales de baja frecuencia para obtener una mejor calidad y permite que los reproductores de MP3 originales reproduzcan archivos MP3PRO. La otra parte consiste en codificar la señal de alta frecuencia separada e incrustarla en la transmisión MP3.

Los reproductores de MP3 tradicionales lo ignoran, pero el nuevo reproductor MP3PRO lo restaura y lo combina para obtener un sonido de alta calidad y con todo el ancho de banda. A través de esta tecnología, MP3 Pro puede proporcionar la misma calidad de sonido que MP3 a 128 Kbps con una velocidad de codificación de 64 kbps. La calidad del sonido es casi la misma, pero el volumen es sólo la mitad que el MP3.

PSP admite MP3PRO y existen muchos programas de conversión de formatos que admiten MP3PRO. Puedes encontrarlos en línea. Si estás interesado, puedes probarlo. Definitivamente mejor que el mp3.

Thomson Company anunció oficialmente a principios de febrero de 2004 que MP3, el formato de compresión de música más popular del mundo, había entrado en la era multicanal. MP3SURROUND fue desarrollado conjuntamente por FraunhoferIIS y Agere. Utiliza tecnología CueCoding (BCC) binaural para codificación psicoacústica, que puede lograr un sonido envolvente multicanal garantizando al mismo tiempo el tamaño del archivo. AgereSystems, que se unió al mismo tiempo, es el principal responsable de promover el formato MP3 multicanal: MP3 Surround. La tecnología MP3SURROUND genera audio envolvente de alta calidad de 5.1 canales y tiene una amplia gama de aplicaciones. Puede desempeñar un papel en la distribución de música en red, sistemas de transmisión, aplicaciones audiovisuales para PC, audio de juegos, electrónica de consumo, audio para automóviles, etc. Aunque se integran múltiples canales, Thomson dijo que los archivos MP3SURROUND no suponen un gran aumento en comparación con el MP3 normal (con una frecuencia de muestreo similar) y tienen sólo la mitad del tamaño de otros formatos de audio envolvente multicanal. Además, MP3SURROUND proporciona una buena compatibilidad y se puede utilizar normalmente en software y reproductores de MP3 existentes.

2. AAC (*.3gp/*.mp4/*.m4a)

AAC es la abreviatura de AdvancedAudioCoding, desarrollado por el Instituto Fraunhofer, Dolby y AT&T***. Desarrollado por la misma empresa. AAC es parte de la especificación MPEG-2 y es adecuado para codificar desde una calidad de sonido telefónico monofónico a 8 Kbps hasta audio multicanal de ultra alta calidad a 160 Kbps. En comparación con MP3, AAC agrega algunas características que el formato de audio MP3 no tiene, como reproducción estéreo perfecta, escaneo de sonido con efecto de flujo de bits, control multimedia, optimización de reducción de ruido, etc. , para que la calidad del sonido del CD pueda reproducirse perfectamente incluso después de la compresión del audio. También admite hasta 48 pistas de audio, 15 pistas de audio de baja frecuencia, más frecuencias de muestreo y de bits, compatibilidad en varios idiomas y mayor eficiencia de decodificación. En resumen, AAC puede proporcionar una mejor calidad de sonido y al mismo tiempo ser un 30% más pequeño que los archivos MP3.

A continuación se explicarán algunos de estos módulos:

Control de ganancia

El módulo de control de ganancia se utiliza para configuraciones de frecuencia de muestreo variable y consta de filtros de cuadratura polifásicos. Consta de PQF (filtro polifásico), detector de ganancia y ajustador de ganancia. Este módulo divide la señal de entrada en cuatro bandas de frecuencia de igual ancho de banda. También hay un módulo de control de ganancia en el decodificador para obtener una señal de salida de baja frecuencia de muestreo ignorando las señales de subbanda de alta frecuencia del PQF.

Banco de filtros (banco de filtros)

El banco de filtros es un módulo de conversión que convierte la señal de entrada del dominio del tiempo al dominio de la frecuencia. Es el módulo básico del MPEG-. Sistema 2AAC. El módulo adopta la transformada de coseno discreta modificada MDCT, que es una transformada superpuesta ortogonal lineal, y utiliza una técnica llamada cancelación de alias en el dominio del tiempo (TDAC). MDCT utiliza ventana KBD (Kaiser-Besselderived) o ventana sinusoidal. La transformación MDCT directa se puede expresar mediante la siguiente fórmula:

La transformación MDCT inversa se puede expresar mediante la siguiente fórmula:

Donde,

N=número de muestras,

N=longitud del bloque de transformación,

I=número de bloque,

Lo anterior dos transformadas de coseno discretas Las fórmulas se presentan en detalle en "Funciones discretas y ecuaciones matemáticas" y son solo para que las comprendan los jugadores interesados ​​sin entrar en detalles.

Conformación de ruido instantáneo TNS

En la codificación de sonido perceptivo, el módulo TNS es un método para controlar la forma instantánea del ruido cuantificado, que resuelve el problema de la falta de coincidencia entre el umbral de enmascaramiento y el ruido cuantificado. . La idea básica de esta tecnología es que la señal de tono en el dominio del tiempo tiene un valor máximo instantáneo en el dominio de la frecuencia. TNS aprovecha esta dualidad para ampliar las técnicas de codificación predictiva conocidas colocando ruido de cuantificación debajo de la señal real para evitar coincidencias falsas.

Codificación estéreo conjunta

La estereocodificación conjunta es una tecnología de codificación espacial cuyo propósito es eliminar información espacial redundante. El sistema MPEG-2AAC incluye dos técnicas de codificación espacial: codificación media/lateral e intensidad/acoplamiento. La codificación M/S utiliza operaciones matriciales, por lo que la codificación M/S se denomina codificación estéreo matricial. La codificación M/S no transmite señales de los canales izquierdo y derecho, sino que utiliza señales de "suma" y señales de "diferencia" normalizadas. El primero se utiliza para el canal central M (medio) y el segundo se utiliza para el canal lateral S (lateral), por lo que la codificación M/S también se denomina "codificación de suma-diferencia". La codificación de intensidad/acoplamiento del sonido tiene muchos nombres, algunos de ellos se llaman codificación estéreo de intensidad o codificación de acoplamiento de canales.

El problema básico que exploran es la irrelevancia entre canales.

Predicción (predicción)

Esta es una técnica muy utilizada en sistemas de codificación de voz, utilizada principalmente para reducir la redundancia en señales estacionarias.

Cuantizador (Quantizer)

Utiliza un cuantificador no uniforme.

Codificación silenciosa (codificación silenciosa)

La codificación silenciosa es en realidad codificación de Huffman, que codifica coeficientes espectrales cuantificados, factores de escala e información de dirección.

PD: Personalmente prefiero AAC, así que escribo con más detalle. También podrías intentarlo. Definitivamente mejor que MP3. Puede utilizar iTunes6 para convertir AAC (*.m4a). El funcionamiento de iTunes6AAC es muy sencillo. Puede copiar AAC (*.3gp\*.mp4\*.m4a) directamente a [Música] para reproducirlo.

Se puede decir que aac es actualmente el mejor método de compresión con pérdida.

El PU de mayor calidad (a simple vista) no se puede distinguir sin sufrir daños.

3. ATRAC3/ATRAC3+(*.aa3)

Los amigos que han jugado MD en los primeros años saben que el algoritmo de formato de audio ATRAC de Sony diseñado para MD se ha utilizado ampliamente en Sony. dispositivos de audio portátiles como NetworkWalkman. "ATRAC3plus" significa "Adaptive Speech Coding 3+". Es un conjunto de tecnología de compresión de audio basada en principios psicoacústicos. Esta tecnología se mejoró gradualmente en 2002. Esta tecnología es la base teórica para reducir el tamaño del MD Walkman a un tamaño extremadamente pequeño.

Para analizar ATRAC3/ATRAC3+, primero debemos hablar de su hermano mayor, el algoritmo ATRAC. Al comprimir datos de audio digital, normalmente se introduce una cierta cantidad de ruido de cuantificación en la señal. Para evitar que el oído humano perciba estas señales, es una práctica común que la codificación de audio descomponga la señal en un conjunto de unidades, correspondiendo cada unidad a un rango de tiempo-frecuencia específico. El codificador analizará según los principios psicoacústicos mencionados anteriormente y codificará unidades importantes con alta precisión. Para unidades insensibles, se puede retener algo de ruido de cuantificación sin afectar la calidad de la percepción del oído humano. Durante la decodificación, el espectro cuantificado se restablece en función de la asignación de bits y luego se sintetiza la señal de audio.

ATRAC no es una excepción, pero también hay algunas mejoras. ATRAC también aplica tecnología de decodificación de subbanda y decodificación por transformación, en la que la señal de entrada se distribuye con una división de frecuencia desigual que enfatiza la importante zona de graves. Además, ATRAC utiliza una longitud de bloque variable para cambiar la señal de entrada, lo que puede garantizar una decodificación eficiente cuando pasa de manera estable y no afectará la resolución de tiempo cuando pasa instantáneamente. En concreto, la señal de entrada se divide en tres bandas de frecuencia: 5,5125 KHz y 11,025 KHz, y la descomposición de las subbandas se completa mediante QMF (QuadratureMirrorFilters Integral Mapping Filter). Estas tres bandas de frecuencia están indexadas mediante la transformada de coseno discreta MDCT (Transformada de coseno de disco modificado), similar a la transformada rápida de Fourier habitual, que se presenta en Matemáticas avanzadas II y Ecuaciones matemáticas. ) en valores espectrales, MDCT permite una superposición del 50% entre bloques, mejorando así la resolución de frecuencia y manteniendo el muestreo crítico. La longitud del bloque se puede cambiar según el tipo de señal, que es la parte adaptativa de ATRAC (esto utiliza principalmente enmascaramiento para enmascarar el ruido de cuantificación inicial).

Cuando el algoritmo ATRAC se desarrolló durante 10 años y ya no puede satisfacer la demanda del mercado, Sony lanzó un nuevo algoritmo en agosto de 2002:

ATRAC3/ATRAC3+. En comparación con ATRAC, es. El algoritmo central no tiene cambios esenciales, pero utiliza filtrado de separación de bandas mejorado y MDCT, y utiliza tecnologías como ajuste de ganancia, separación de componentes tonales y estéreo conjunto para reducir aún más la cantidad de datos de compresión de audio.

4. AAL (ATRACAdvancedLossless)

AAL es la abreviatura de codificación ATRACAdvancedLossless (Adaptive Acoustic Conversion) y es un formato de compresión de audio desarrollado recientemente por Sony. Se caracteriza por una compresión sin pérdidas sin perder ninguna información de audio. Un CD se puede comprimir entre un 30% y un 80% de su tamaño original.

5. Ogg

El nombre completo de Ogg debería ser OGG Vorbis (ogg Vorbis). Este es un nuevo formato de compresión de audio, similar a los formatos de compresión de audio existentes, como la música. formato. Pero una cosa es diferente: es completamente gratuito y abierto, sin restricciones de patentes. Una característica destacada de OGG Vobis es que admite múltiples canales. Dada su popularidad, no será un sueño utilizar Walkman para escuchar obras multicanal codificadas en DTS en el futuro.

Vorbis es el nombre de este mecanismo de compresión de audio, y Ogg es el nombre de un proyecto que pretende diseñar un sistema multimedia completamente abierto.

La extensión del archivo Ogg Vorbis es. OGG. El formato de diseño de este archivo es muy avanzado. Los archivos OGG creados se pueden reproducir en cualquier reproductor, por lo que el formato del archivo puede seguir mejorando en tamaño y calidad de sonido sin afectar a los codificadores o reproductores más antiguos.

En comparación con aac, la baja frecuencia es ligeramente dominante y la alta frecuencia es ligeramente peor.

El PU de la más alta calidad (a simple vista) no se puede distinguir sin sufrir daños.

La calidad más alta, Q10, es casi el doble que la calidad más alta de aac, Q500, utilizando codificación faac.

La codificación es de código abierto.