Codificador automático de modelo de red neuronal no supervisado
En la actualidad, existen dos aplicaciones principales de los codificadores automáticos: una es la extracción de características; la otra es la reducción de dimensionalidad no lineal, que se utiliza para la visualización de datos de alta dimensión. El diseño central del codificador automático es la capa oculta. Hay dos métodos de diseño para la capa oculta:
(1) Cuando el número de neuronas en la capa oculta es menor que el número de neuronas en la entrada. capa, se llama subcompleta. El diseño de capa oculta hace que la transformación de la capa de entrada a la capa oculta sea esencialmente una operación de reducción de dimensionalidad. La red intenta describir los datos originales en una dimensión más pequeña sin perder la mayor cantidad de información de datos posible, obteniendo así la compresión de la capa de entrada. expresar. Cuando la función de activación de la capa oculta adopta una función lineal, el codificador automático también se denomina codificador automático lineal y su efecto es equivalente al análisis de componentes principales (PCA).
(2) Cuando el número de neuronas de la capa oculta es mayor que el número de neuronas de la capa de entrada, se denomina sobrecompleto. Este diseño de capa oculta se usa generalmente en codificadores dispersos para obtener una representación de características escasa, es decir, hay una gran cantidad de neuronas en la capa oculta cuyo valor es 0.
Codificador automático con eliminación de ruido
El codificador automático con eliminación de ruido (DAE) está diseñado para mejorar la robustez del codificador automático. El objetivo del codificador automático es esperar que la salida X reconstruida sea la misma que los datos de entrada X, es decir, se puede aprender la distribución correcta de los datos de la capa de entrada. Sin embargo, cuando los datos de la capa de entrada se ven afectados por el ruido, es posible que los datos de entrada obtenidos no obedezcan a la distribución original. En este caso, los resultados obtenidos mediante el uso de codificadores automáticos también serán incorrectos. Para resolver el problema de la desviación de datos causada por el ruido, DAE agrega procesamiento de ruido entre la capa de entrada y la capa oculta para obtener nuevos datos de capa de ruido Y, y luego realiza operaciones de conversión de codificador automático convencionales basadas en estos nuevos datos de ruido Y.
Codificador automático apilado
Codificador automático apilado (SAE), también conocido como autocodificador apilado, autocodificador apilado. Consiste en apilar varios codificadores automáticos y utilizar la representación de la capa oculta de la capa anterior como entrada de la siguiente capa para obtener una representación más abstracta. Una aplicación muy importante de SAE es inicializar los parámetros de peso de la red mediante un entrenamiento previo capa por capa, mejorando así la velocidad de convergencia de las redes profundas y ralentizando el impacto de la desaparición del gradiente. Para el aprendizaje supervisado común, SAE actúa en toda la red a través de los dos huevos siguientes.
1. Entrenamiento previo paso a paso
El codificador automático entrena los parámetros de cada capa como parámetros de inicialización de la red neuronal. Utilizando un método de preentrenamiento capa por capa, primero se construyen varios codificadores automáticos, cada uno de los cuales corresponde a una capa oculta.
Ajuste fino
Después del primer paso de preentrenamiento capa por capa, se puede obtener una estimación inicial más razonable de los parámetros de peso de la red mediante la función de pérdida de. En la capa de salida, se puede resolver de forma iterativa utilizando métodos como el descenso de gradiente. Parámetros óptimos, como entrenar una red profunda normal.
Codificador disperso
La estructura de red del codificador disperso es la misma que la del codificador automático, que también es una red neuronal de alimentación directa de tres capas. En codificación dispersa, el modelo esperado puede obtener capas ocultas y capas de salida para cualquier dato de entrada, y los datos de entrada, las capas ocultas y las capas de salida tienen las dos propiedades siguientes.
(1) Si el vector de capa oculta es escaso, entonces el vector tiene tantos elementos cero como sea posible.
(2) Los datos de la capa de salida pueden restaurar los datos de la capa de entrada tanto como sea posible.