¿Qué plataformas de desarrollo abierto existen para el reconocimiento de voz?
1.
1) Microsoft Speech API
Microsoft Speech API (SAPI para abreviar) es una interfaz de programación de aplicaciones (API), que incluye motores de reconocimiento de voz (SR) y síntesis de voz (SS). ampliamente utilizado en Windows. Actualmente, Microsoft ha lanzado varias versiones de SAPI (la última versión es SAPI 5.4), ya sea como un kit de herramientas de desarrollo para Speech SDK o incluido directamente en el sistema operativo Windows. SAPI admite el reconocimiento y la lectura en varios idiomas, incluidos inglés, chino y japonés.
2).IBM viaVoice
IBM es una de las instituciones que inició anteriormente la investigación sobre el reconocimiento de voz. Ya a finales de la década de 1950, IBM inició investigaciones sobre el reconocimiento de voz. Las computadoras están diseñadas para detectar patrones lingüísticos específicos y obtener correlaciones estadísticas entre sonidos y caracteres correspondientes. En 1999, IBM lanzó una versión gratuita de VoiceType. En 2003, IBM autorizó a ScanSoft a tener derechos de distribución exclusivos para productos de escritorio basados en la capacidad de supervivencia, y luego ScanSoft se fusionó con Nuance. Hoy en día, la capacidad de supervivencia hace tiempo que se desvaneció en la oscuridad, reemplazada por los matices.
3) Matices
Nuance Communication es una empresa multinacional de tecnología de software informático con sede en Burlington, Massachusetts, EE. UU. Proporciona principalmente soluciones y aplicaciones de voz e imagen. El negocio actual se centra en servidores y reconocimiento de voz integrado, sistemas de dirección telefónica, servicios de directorio telefónico automático, etc. Además de la tecnología de reconocimiento de voz, la tecnología de voz de Nuance también incluye síntesis de voz, reconocimiento de huellas de voz y otras tecnologías. En el mercado mundial de tecnología del habla, más del 80 % del reconocimiento de voz utiliza la tecnología del motor de reconocimiento de Nuance y tiene más de 1000 tecnologías patentadas a su nombre. La empresa desarrolla productos de voz que admiten más de 50 idiomas y tienen más de 2 mil millones de usuarios en todo el mundo. El servicio de reconocimiento de voz de Nuance se utiliza en el reconocimiento de voz Siri en el iPhone 4S de Apple.
4) iFlytek
Como el mayor proveedor de tecnología de voz inteligente en China, iFlytek tiene investigación y acumulación a largo plazo en el campo de la tecnología de voz inteligente y tiene logros líderes a nivel internacional. reconocimiento, evaluación del lenguaje hablado y otros aspectos técnicos. La cuota de mercado de los productos de síntesis de voz, que ocupa más del 60% del mercado de tecnología del habla de China, ha alcanzado más del 70%.
5) Otros
Otras plataformas comerciales influyentes de interacción por voz incluyen la búsqueda por voz de Google, los métodos de entrada de voz de Baidu y Sogou, etc.
2. Plataforma de interacción de voz de código abierto
1) CMU Sphinx
CMU-Sphinx, también conocida como Sphinx, es un sistema de reconocimiento de voz de código abierto. desarrollado por la Universidad Carnegie Mellon (CMU), que incluye una serie de reconocedores de voz y herramientas de entrenamiento de modelos acústicos. El primer Sphinx-I fue desarrollado por Kai-Fu Lee alrededor de 1987, utilizando un modelo HMM fijo (que incluye tres libros de códigos de tamaño 256). Se anuncia como el primer sistema de reconocimiento de voz continuo de alto rendimiento (más del 90 % de precisión en la base de datos de gestión de recursos). El último sistema de reconocimiento de voz Sphinx incluye los siguientes paquetes de software:
Pocketsphinx: una biblioteca de reconocedores escrita en C.
sphinx base: la biblioteca de soporte requerida por pocket sphinx
Sphinx4: un reconocedor ajustable y modificable escrito en Java
CMUclmtk: herramienta de modelo de lenguaje
sphinxtrain: herramienta de entrenamiento de modelos acústicos
Los archivos ejecutables y el código fuente de estos paquetes de software se pueden descargar de forma gratuita en sourceforge.
2) HTK
HTK es la abreviatura de Hidden Markov Model Toolkit, que se utiliza principalmente para la investigación de reconocimiento de voz. Fue desarrollado originalmente en 1989 por el Laboratorio de Inteligencia de Máquinas (anteriormente Grupo de Robótica y Visión del Habla) del Departamento de Ingeniería de la Universidad de Cambridge para construir el sistema de reconocimiento de voz de gran vocabulario de CUED.
La última versión de HTK es la 3.4.1 lanzada en 2009. Para conocer los principios de implementación de HTK y cómo utilizar varias herramientas, consulte el documento HTK HTKBook.
3) Julius
Julius es un proyecto de código abierto de reconocimiento continuo de voz de vocabulario amplio (LVCSR) de doble canal y alto rendimiento adecuado para investigadores y desarrolladores. Utiliza HMM de 3 gramos y sensible al contexto para lograr reconocimiento de voz en tiempo real en las PC actuales con un tamaño de palabra de 60k.
4) RWTH ASR
La caja de herramientas contiene la última implementación de algoritmo de tecnología de reconocimiento automático de voz, desarrollada por el Grupo de Tecnología del Lenguaje Humano y Reconocimiento de Patrones de la Universidad de Rwthahachen. La caja de herramientas RWTH ASR incluye partes importantes como la construcción del modelo acústico y el analizador, así como componentes adaptativos de los hablantes, componentes de entrenamiento adaptativo de los hablantes, componentes de entrenamiento no supervisados, entrenamiento personalizado y componentes de procesamiento de raíces.
5) Otros
La caja de herramientas de código abierto mencionada anteriormente se utiliza principalmente para el reconocimiento de voz. Otros proyectos de reconocimiento de voz de código abierto incluyen Kaldi, Simon, iATROS-speech, SHoUT y Zanzibar. AbiertoIVR, etc.