Guangzhou Weichuang Electronics Co., Ltd. de chip de grabación
Chip de grabación: es un chip de almacenamiento de voz que puede grabar y guardar a voluntad activando el botón de grabación REC y, una vez completada la grabación, activa el botón PLAY para reproducir la grabación y puede realizar grabaciones repetidas. Grabación y reproducción (el diagrama esquemático está en la vista del chip de grabación en principio), incluye dos procesos, ADC y DAC, los cuales son completados por el propio chip, incluidos pasos como la recopilación, análisis, compresión y almacenamiento de datos de voz. y reproducción.
ADC=Cambio Analógico Digital
DAC= Cambio Analógico Digital
La calidad del sonido depende del número de bits ADC y DAC. Por ejemplo, el módulo WTV-SR adopta la arquitectura de hardware del chip de control principal y el complemento SPI-FLASH, lo que tiene grandes ventajas en términos de tiempo de grabación y rendimiento de costos. ) 1. El principio es relativamente simple y consta de dos botones, REC y PLAY. Se pueden definir y seleccionar más funciones según casos específicos. Un diagrama esquemático más completo es el siguiente:
2. Expresión cuantitativa:
(a) Introducción al "chip de grabación":
(1) Cuantificación de la señal de voz
Velocidad de muestreo (f), número de bits (n), velocidad en baudios (T)
Muestreo: convierte señales analógicas de voz en señales digitales.
Frecuencia de muestreo: el número de muestras por segundo (byte).
Velocidad de baudios: número de bits muestreados por segundo. La velocidad en baudios determina directamente la calidad del sonido. Bps: bit por segundo
El número de bits de muestreo se refiere al número de bits en condiciones binarias. Generalmente, a menos que se especifique lo contrario, el número de bits de muestreo de sonido se refiere a 8 bits, que van desde 00H a FFH, y el silencio se establece en 80H.
(2) Frecuencia de muestreo
Teorema de muestreo de Nyquist (Ley de Nyquist): para restaurar la señal original a partir de la señal muestreada sin distorsión, la frecuencia de muestreo debe ser mayor que 2 veces el máximo frecuencia de la señal. Cuando la frecuencia de muestreo es inferior a 2 veces la frecuencia más alta del espectro, el espectro de la señal tiene aliasing. Cuando la frecuencia de muestreo es mayor que 2 veces la frecuencia más alta del espectro, el espectro de la señal no tiene alias.
El ancho de banda de frecuencia de la voz es de aproximadamente 20 ~ 20 KHZ, y la voz normal es de aproximadamente 3 KHZ o menos. Por lo tanto, la calidad de sonido general de los CD es de 44,1 K y 16 bits. Si encuentra algunos sonidos especiales, como instrumentos musicales, la calidad del sonido también puede ser de 48 K y 24 bits, pero no es la habitual.
Generalmente, cuando trabajamos con circuitos integrados de voz comunes, la frecuencia de muestreo es de hasta 16 K y el sonido del habla es generalmente de 8 K (como la calidad del sonido del teléfono) o alrededor de 6 K. El efecto es pobre por debajo de 6K.
En el proceso de aplicación de microcontroladores, cuanto mayor sea la frecuencia de muestreo, más rápida será la velocidad de interrupción del temporizador, lo que afectará el monitoreo y detección de otras señales, por lo que debe considerarse de manera integral.
(3) Tecnología de compresión de voz.
Debido a la gran cantidad de datos de voz, es necesario comprimirlos de manera efectiva, lo que nos permite grabar más contenido de voz en el espacio ROM limitado. Existen varios métodos:
Segmentación de la voz: intercepta las partes repetibles del discurso y reproduce el contenido completamente mediante disposición y combinación.
Muestreo de voz: Generalmente, la curva de respuesta de frecuencia de los altavoces que utilizamos está en la parte de frecuencia media y rara vez se utilizan frecuencias altas. Por lo tanto, cuando la calidad del sonido del altavoz es aceptable, la frecuencia de muestreo debe ser la adecuada. reducirse adecuadamente para lograr un efecto de compresión. Este proceso es irreversible y no puede restaurar la apariencia original, por lo que se llama compresión con pérdida.
Compresión matemática: comprime principalmente el número de bits de muestreo. Este método también es compresión con pérdida. Por ejemplo, el formato de compresión ADPCM que utilizamos habitualmente comprime datos de voz de 16 bits a 4 bits, con una tasa de compresión de 4 veces. MP3 comprime flujos de datos e implica predicción de datos. Su relación de compresión de velocidad en baudios es aproximadamente 10 veces.
Por lo general, los métodos de compresión anteriores se utilizan en combinación.
(4) Formatos de voz comúnmente utilizados
Formato PCM: la modulación de código de pulso, que muestrea la señal analógica de sonido para obtener datos de voz cuantificados, es el formato de voz A más básico y original. Muy similares son el formato RAW y el formato SND. Todos son formatos de solo voz.
Formato WAV: Wave Audio Files es un formato de archivo de sonido desarrollado por Microsoft, también llamado archivo de sonido de forma de onda, y es ampliamente compatible con las plataformas Windows y sus aplicaciones. El formato WAV admite muchos algoritmos de compresión y admite una variedad de bits de audio, frecuencias de muestreo y canales. Sin embargo, el formato WAV requiere demasiado espacio de almacenamiento y no es conveniente para la comunicación y difusión. Cada dato almacenado en el archivo WAV tiene su propio identificador independiente. Estos identificadores pueden indicarle al usuario qué datos son. Estos datos incluyen la frecuencia de muestreo y el número de bits, mono o estéreo, etc.
Formato ADPCM: utiliza varios valores de muestra anteriores para predecir el valor de muestra de entrada actual y le permite tener una función de predicción adaptativa para comparar con el valor de detección real y comparar la diferencia medida en cualquier momento. Procese automáticamente la diferencia de nivel de cuantificación para que siempre cambie sincrónicamente con la señal. Es adecuado para situaciones en las que la tasa de cambio de voz es moderada y el proceso de reproducción del sonido es breve. Su ventaja es que el procesamiento de voces humanas es relativamente realista, generalmente alcanza más del 90%, y se ha utilizado ampliamente en el campo de las comunicaciones telefónicas.
Formato MP3: Moving Picture Experts Group Audio Layer III, denominado MP3. Utiliza la tecnología MPEG Audio Layer 3 y adopta un algoritmo de codificación llamado "tecnología de codificación sensorial": al codificar, primero se analiza el espectro del archivo de audio, luego se usa un filtro para filtrar el nivel de ruido y luego se cuantifica el audio restante. Cada bit a continuación se dispersa y organiza y, finalmente, se forma un archivo mp3 con una relación de compresión más alta, de modo que el archivo comprimido pueda lograr un efecto de sonido más cercano a la fuente de sonido original durante la reproducción. Su esencia es que vbr (Variant Bitrate variable baud rate) puede seleccionar dinámicamente una velocidad de baudios adecuada en función del contenido codificado, por lo que el resultado de la codificación garantiza la calidad del sonido y al mismo tiempo cuida el tamaño del archivo.
La tasa de compresión de MP3 es 10 veces o incluso 12 veces. Es un formato de voz de alta tasa de compresión que apareció por primera vez.
Formato de escala lineal: según la tasa de cambio del sonido, el sonido se divide en varios segmentos y cada segmento se comprime utilizando una relación lineal, pero su relación es variable.
Formato logpcm: básicamente comprime linealmente todo el sonido, eliminando los últimos bits. Este método de compresión es fácil de implementar en hardware, pero la calidad del sonido es peor que la escala lineal, especialmente cuando el volumen es menor y el sonido más delicado. Se utiliza principalmente para el habla pura.
3. Expresión del espacio ROM de voz
El chip de voz es la visualización de la expresión, representada por la longitud de la voz
a) Voz ordinaria Los chips utilizan una frecuencia de muestreo de 6K estándar para calcular la duración de la voz.
b) El IC de grabación utiliza una frecuencia de muestreo de 4K como estándar de cálculo de la longitud de la voz.
Es decir: la longitud que el chip puede reproducir a una frecuencia de muestreo de 6k (4k).
4. Elementos de los chips de voz
El coste de los chips del mismo tipo es directamente proporcional al tamaño del chip.
a) La asignación de puertos de E/S y el tamaño de la ROM (segundos de voz) determinan el coste del chip. Los chips de voz de segunda calidad tienen menos puertos de E/S.
b) Se mejora la calidad del sonido, se mejora el muestreo y se acortan los segundos de voz.
La calidad del sonido se reduce, el muestreo se reduce y los segundos de voz se hacen más largos
c) El método de cálculo de los segundos de voz: M/(n*f)
M- --Tamaño de ROM (bits) n*f---Velocidad en baudios
5. Introducción al software de procesamiento de sonido
1) SoundForge
2) Cooledit
3) goldwave
4) Calewalk
6 Clasificación del chip de sonido de grabación:
Chip de grabación del módulo de grabación.
Admite grabación de MIC y LINE;
Admite complemento externo SPI-FLASH de hasta 64 M bits, tiempo de grabación de hasta 1600 segundos;
Admite carga de voz y descargar a través de USB;
Admite la reproducción de voces de alta calidad descargadas desde la computadora;
Puede grabar hasta 252 segmentos de voz (incluidas voces fijas);
Admite la función de guardar datos después de un corte de energía;
p>
Admite grabación con frecuencia de muestreo de 10 KHz o grabación con frecuencia de muestreo de 14 K;
Adopta un sistema de gestión de archivos independiente, grabando sin fragmentación y asignando espacio SPI-FLASH de manera más razonable;
Admite botón y control MCU;
8 niveles de volumen controlable;
Voltaje de trabajo DC3. 3V.
Circuito de grabación del módulo de voz con chip de voz serie WTR-S4
Adopta un chip de grabación con núcleo DSP de 8 bits, entrada ADC de 16 bits, salida DAC de 16 bits;
La capacidad de SPI-FLASH externo admitido varía de 4 M Bit a 64 M Bit;
Admite botones estándar, modo de botón uno a uno y modo de control de puerto serie de tres cables;
Admite grabación de línea LINE y grabación de campo MIC;
Puede configurar la frecuencia de muestreo usted mismo, admitiendo muestreo de 6K a 16K;
El rango de voltaje es de 2,7 V CC a 3,6 V, con circuito de detección de bajo voltaje incorporado;
El modo de ahorro de energía solo consume menos de 150uA;
Puede ser ampliamente utilizado en grabación telefónica, control industrial, consumo, juguetes y otros campos. .
Los campos de aplicación de los chips de grabación son muy amplios, como grabar rosas para regalos, grabar ositos de peluche para juguetes, contestadores automáticos para comunicaciones y bolígrafos de grabación necesarios para reporteros, etc.
Aplicaciones en estos campos, todas porque el chip de grabación tiene las siguientes ventajas irremplazables:
Chip de grabación del módulo de grabación a largo plazo
Funciones inteligentes de grabación y reproducción repetibles, y también se pueden personalizar varias funciones;
p>
Tiene la capacidad de configurar diferentes funciones de mensajes de voz según diferentes aplicaciones;
Admite control directo de botones y control de puerto serie del microcontrolador;
La frecuencia de muestreo durante la grabación es de 8 KHz y la grabación y reproducción son de buena calidad;
La voz fija admite una frecuencia de muestreo de 6 KHz ~ 24 KHz;
Grabación con micrófono en el sitio, grabación de sonido de señal analógica directamente con cable de audio y programación de software de voz digital y otras fuentes de sonido Método de carga;
Utilice el puerto USB para descargar información de voz, la velocidad de transmisión es rápida;
Está equipado con una potente computadora host software operativo, la operación es simple y clara;
Área de voz fija independiente y área de grabación en el sitio;
El software inteligente de alta gama admite la descarga de WAV, MP3, ADPCM, y carga de contenido de grabación;
Adopta el modo de trabajo de bajo consumo, adecuado para trabajos a largo plazo;
Puede grabar hasta 256 segmentos de voz y la longitud mínima del segmento no es limitado por tiempo;
Puede grabar voz en alta calidad desde 30 minutos a 16 horas (dependiendo del NAND-FLASH enchufable);
Voltaje de funcionamiento: DC3.3V o DC5V.
Descripción: Graba información de voz desde un micrófono, fuente de sonido analógico y software de computadora al módulo de grabación, y envía instrucciones de control (como pulsos, información de datos de microcomputadora, etc.) en el extremo de control al Módulo de grabación WTV-NAND para activar El módulo de grabación reproduce la voz de alarma grabada.
Soporta NAND-Flash desde 16MByte hasta 256MByte.
Descripción de palabras relacionadas ◎ Grabación de campo: se refiere a la voz grabada desde la escena a través del micrófono (la primera grabación de campo es configurada como una voz fija por el sistema para facilitar la operación en el sitio).
◎ Reproducción en vivo: Reproduce la voz en vivo grabada a través del micrófono.
◎ Grabación fija: utilice software de microcomputadora para programar la voz en el módulo de grabación, incluidos avisos de alarma, avisos de evacuación, lemas publicitarios, timbres horarios, etc.
Ámbito de aplicación El módulo de grabación es un módulo multifuncional que integra grabación y reproducción. Puede recopilar información de audio en el sitio en forma de sonido. Es adecuado para diversas escenas de alarma contra incendios y aquellas que lo requieran. Lugares de grabación y reproducción de alta calidad y a largo plazo para grabar, como actas de reuniones, grabaciones telefónicas, repetidores, máquinas de aprendizaje, etc.
En aplicaciones prácticas, si cree que las funciones del módulo de grabación no son suficientes, puede personalizar las funciones. Es fácil personalizar las funciones del módulo de grabación. Por ejemplo, la máquina de aprendizaje de cartas puede grabar y reproducir fácilmente el contenido de varias cartas.
Si se utiliza para grabar la escena del incendio, puede proporcionar pistas poderosas para análisis futuros de accidentes de incendio y puede emitir una alarma cuando ocurre un incendio, notificar al personal relevante y evacuar a las personas a tiempo, lo que puede resolver eficazmente el incendio actual. El problema de las insuficientes alarmas de accidentes es reducir los desastres al mínimo.
Utilizado para la grabación in situ de reuniones, puede registrar todas las citas importantes de la reunión. Utilizado como repetidor, puede reflejar perfectamente su propia lectura, lo que le facilita encontrar errores y corregirlos.