Red de Respuestas Legales - Conocimientos legales - Esta es una reseña sobre Atención

Esta es una reseña sobre Atención

El mecanismo de atención es un concepto importante en las redes neuronales, y los investigadores actuales lo han estudiado en diversos campos de aplicación. Este artículo presentará de manera integral la estructura y el estado de desarrollo actual del modelo de mecanismo de atención y clasificará los modelos de mecanismo de atención según categorías lógicas;

El modelo de atención/modelo de atención (AM) se introdujo por primera vez en la traducción automática, pero ahora se ha convertido en un concepto importante en la arquitectura de redes neuronales. Los mecanismos de atención se han vuelto extremadamente populares en la comunidad de inteligencia artificial (IA) como un componente importante de las arquitecturas neuronales con numerosas aplicaciones en el procesamiento del lenguaje natural, el aprendizaje estadístico, el habla y la visión por computadora. El principio de atención se puede explicar utilizando sistemas biológicos humanos. Por ejemplo, nuestros sistemas de procesamiento visual tienden a centrar selectivamente la atención en ciertas partes de una imagen mientras ignoran otra información irrelevante, lo que ayuda a la percepción. De la misma manera, en varios problemas relacionados con el lenguaje, el habla o la visión, algunas partes de la información pueden ser más relevantes que otras. Por ejemplo, en tareas de traducción y resumen, sólo determinadas palabras de la secuencia de entrada pueden ser relevantes para predecir la siguiente palabra. De manera similar, en el problema de subtítulos de imágenes, ciertas regiones de la imagen de entrada pueden ser más relevantes para generar la siguiente palabra en el título. AM incorpora el concepto de correlación al permitir que el modelo se enfoque dinámicamente en ciertas partes de la entrada que ayudan a realizar de manera efectiva la tarea en cuestión.

Hay tres razones principales por las que el mecanismo de atención se ha desarrollado rápidamente en el modelado de redes neuronales. En primer lugar, estos modelos se han convertido en la última tecnología para muchas tareas, como la traducción automática, la respuesta a preguntas, el análisis de sentimientos, el etiquetado de partes del discurso, el análisis de electores y los sistemas de diálogo. En segundo lugar, además de mejorar el rendimiento en las tareas principales, también ofrecen otras ventajas. Se utilizan ampliamente para mejorar la interpretabilidad de las redes neuronales (que a su vez se consideran modelos de caja negra), principalmente debido a las crecientes preocupaciones sobre la equidad, la responsabilidad y la transparencia de los modelos de aprendizaje automático en aplicaciones que impactan la vida humana. En tercer lugar, ayudan a superar algunos problemas con las redes neuronales recurrentes (RNN), como la degradación del rendimiento a medida que aumenta la longitud de la entrada y el procesamiento secuencial de las entradas, lo que resulta en una reducción de la eficiencia computacional.

La estructura del modelo secuencia a secuencia consta principalmente de un codificador y un decodificador.

Para resolver los dos problemas anteriores, AM permite que el decodificador acceda a toda la secuencia de entrada codificada. La idea central es introducir un peso de atención α en la secuencia de entrada para priorizar el conjunto de ubicaciones donde existe información relevante para generar el siguiente token de salida.

Este artículo divide el modelo de atención*** en cuatro categorías: clasificación basada en múltiples secuencias de entrada y salida, clasificación basada en capas de abstracción, clasificación basada en posiciones de cálculo y clasificación basada en múltiples representaciones.

Hasta ahora sólo hemos considerado casos que involucran una única entrada y una secuencia correspondiente de salidas. Cuando el estado candidato y el estado de consulta pertenecen a dos secuencias de entrada y salida diferentes respectivamente, esto requiere el uso de un modelo de atención diferente. Este modelo de atención se utiliza principalmente en traducción, resúmenes, subtítulos de imágenes y reconocimiento de voz, etc.

Un modelo de atención simultánea procesa múltiples secuencias de entrada simultáneamente y aprende sus pesos de atención simultáneamente para capturar la interacción entre estas entradas. Por ejemplo, al usar el mismo modelo de atención para la respuesta visual a preguntas, además de establecer un modelo de atención visual en la imagen de entrada, también es importante establecer un modelo de atención a preguntas, porque todas las palabras en el texto de la pregunta no son igualmente importantes para el respuesta a la pregunta. Además, la representación de imágenes basada en la atención se utiliza para guiar la atención de las preguntas y viceversa, lo que esencialmente ayuda a detectar simultáneamente frases clave en las preguntas y las regiones correspondientes de la imagen relacionadas con las respuestas. Para tareas como clasificación y recomendación de texto, la entrada es una secuencia, pero la salida no es una secuencia.

En este escenario, se puede utilizar la atención para aprender tokens relacionados en la secuencia de entrada para cada token en la misma secuencia de entrada. En otras palabras, para este tipo de atención, los estados de consulta y candidato pertenecen a la misma secuencia.

Referencias:

[1] Jiasen Lu, Jianwei Yang, Dhruv Batra y Devi Parikh Coatención jerárquica de preguntas e imágenes para la respuesta visual de preguntas. En NIPS, páginas 289. 297, 2016

[2] Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alexander J. Smola y Eduard H. Hovy Redes de atención jerárquicas para la clasificación de documentos.

En el caso más general, los pesos de atención se calculan solo para la secuencia de entrada original. Este tipo de atención se puede llamar de un solo nivel. La atención, por otro lado, se puede aplicar secuencialmente a múltiples niveles de abstracción de la secuencia de entrada. La salida (vector de contexto) del nivel de abstracción inferior se convierte en el estado de consulta del nivel de abstracción superior. Además, los modelos que utilizan atención multinivel se pueden clasificar aún más en función de si las ponderaciones se aprenden de arriba hacia abajo o de abajo hacia arriba. Ilustramos un ejemplo clave en esta categoría que utiliza modelos de atención en dos niveles diferentes de abstracción (es decir, nivel de palabra y nivel de oración) para una tarea de clasificación de documentos. Este modelo se denomina modelo de atención jerárquica (HAM) porque captura la estructura jerárquica natural de los documentos, es decir, los documentos se componen de oraciones y las oraciones se componen de palabras. La atención multinivel permite a HAM extraer palabras importantes en oraciones y oraciones importantes en documentos, como se muestra a continuación. Primero construye un método de representación de oraciones basado en la atención y aplica atención de primer nivel a la secuencia de vectores de incrustación. Luego usa atención de segundo nivel para agregar estas representaciones de oraciones para formar una representación del documento. tarea de vector de características para clasificación.

Referencias:

[1] Shenjian Zhao y Zhihua Zhang. Traducción automática neuronal de atención mediante atención en AAAI, 2018

En la tercera categoría. la diferencia proviene de la posición en la secuencia de entrada donde se calculan los pesos de atención. La atención introducida por Bahdanau et al. también se denomina atención suave. Como sugiere el nombre, utiliza un promedio ponderado de todos los estados ocultos de la secuencia de entrada para construir un vector de contexto. El uso de métodos de ponderación flexible permite que la red neuronal aprenda de manera eficiente mediante la propagación hacia atrás, pero también genera costos computacionales secundarios. Xu et al. propusieron un modelo de atención estricta en el que los vectores de contexto se calculan en función de estados ocultos muestreados aleatoriamente de la secuencia de entrada. Esto se logra prestando atención a la distribución de Donoulli parametrizada por los pesos. Los modelos de atención dura ayudan a reducir los costos computacionales, pero toman decisiones difíciles en cada posición de la entrada, lo que hace que el marco resultante no sea diferenciable y difícil de optimizar. Por lo tanto, para superar esta limitación, en la literatura se han propuesto métodos de aprendizaje variacional y métodos de gradiente de políticas.

Referencias:

[1] Dzmitry Bahdanau, Kyunghyun Cho y Yoshua Bengio. Traducción automática neuronal aprendiendo conjuntamente a alinear y traducir arXiv preprint arXiv: 1409.0473, 2014.

p>

[2] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel y Yoshua Bengio Muestra, asiste y cuenta: Generación de subtítulos de imágenes neuronales con atención visual. páginas 2048–2057, 2015.

[3] Thang Luong, Hieu Pham y Christopher D. Manning Enfoques efectivos para la traducción automática neuronal basada en la atención en EMNLP, páginas 1412–1421, Lisboa, Portugal. , septiembre de 2015. ACL.

Normalmente, en la mayoría de las aplicaciones se utiliza una representación de característica única de la secuencia de entrada. Sin embargo, en algunos casos, utilizar una representación de característica de la entrada puede no ser suficiente para tareas posteriores. En este caso, un enfoque consiste en capturar diferentes aspectos de la entrada a través de múltiples representaciones de características. Se puede utilizar la atención para asignar pesos de importancia a estas diferentes representaciones, que determinan los aspectos más relevantes ignorando el ruido y la redundancia en la entrada. A este modelo lo llamamos AM de representación múltiple porque puede determinar la relevancia de múltiples representaciones de entradas para aplicaciones posteriores. La representación final es el peso combinado ponderado de estas múltiples representaciones y su atención. Tenga en cuenta que el beneficio es evaluar directamente qué incrustaciones se prefieren para una tarea posterior específica examinando los pesos.

Referencias:

[1]Douwe Kiela, Changhan Wang y Kyunghyun Cho. Metaincrustaciones dinámicas para representaciones mejoradas de oraciones en EMNLP, páginas 1466–1477, 2018.

p>

[2]Suraj Maharjan, Manuel Montes, Fabio A González y Thamar Solorio. Un modelo de atención consciente del género para mejorar la predicción de la simpatía de los libros.

[3]Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou y Yoshua Bengio Una incrustación de oración estructurada y atenta arXiv arXiv: 1703.03130, 2017.

[4]Tao Shen, Tianyi Zhou, Guodong Long, Jing Jiang, Shirui Pan y Chengqi Zhang: Red de autoatención direccional para la comprensión del lenguaje sin rnn/cnn en AAAI, 2018

Para obtener más conocimientos relacionados con el procesamiento del lenguaje natural, siga también la cuenta oficial de AINLPer y los mejores productos secos se entregarán de inmediato.