Chen, investigador principal del algoritmo Tencent: tecnología inteligente de preguntas y respuestas y su aplicación
Con la ayuda de algoritmos de motor de IA inteligente líderes en la industria y almacenes de datos masivos, Tencent Xiaozhi ha implementado tecnología inteligente de preguntas y respuestas. Después de extensas pruebas y optimización comerciales, se ha alcanzado el grado de coincidencia y la precisión de los puntos de conocimiento. más del 90%. En la Conferencia Global de Tecnología de Internet GITC 2065 438+08, Tencent Xiaozhi ganó el premio anual al producto más valioso de Internet.
Chen, líder del algoritmo de Tencent Xiaozhi, también pronunció un discurso especial sobre los principios de la tecnología inteligente de preguntas y respuestas y su aplicación en escenarios To B, mostrándonos los últimos logros de la tecnología inteligente de preguntas y respuestas desde su propia perspectiva.
Primero explicó su posición y valor de la actual tecnología inteligente de preguntas y respuestas a partir de tres preguntas: qué es la respuesta inteligente a preguntas, por qué deberíamos hacerlo y cómo hacerlo. En primer lugar, la etapa actual de preguntas y respuestas inteligentes es una actualización de la tecnología de recuperación de información, lo cual es un cambio cuantitativo más que cualitativo. Pero ya sea en escenarios To B o To C, la tecnología actual puede resolver eficazmente los puntos débiles de algunos usuarios y mejorar la experiencia del usuario. Esta es una dirección urgente e imaginativa.
Al responder a la pregunta de cómo hacerlo, presentó en detalle las rutas de implementación de varios robots de preguntas y respuestas diferentes, incluidos robots de preguntas y respuestas de una sola ronda, robots de preguntas y respuestas de rondas múltiples y robots de lectura. robots de comprensión. Se centra en los principios de implementación de robots de preguntas y respuestas de ronda única, incluida la coincidencia literal, la coincidencia de vectores de palabras, la coincidencia semántica profunda, el aprendizaje por transferencia y otras tecnologías.
Después de eso, también compartió la experiencia del equipo de Xiaozhi en la producción de las tecnologías mencionadas anteriormente, incluidos robots inteligentes de servicio al cliente y robots telefónicos. Principalmente compartió la forma actual del producto, los aspectos más destacados y algunos resultados en proyectos reales.
Finalmente, resumió brevemente el trabajo actual de Xiaozhi y expuso sus propios puntos de vista sobre el desarrollo de preguntas y respuestas inteligentes.
-
El siguiente es el texto completo del discurso:
Buenas tardes a todos. Estoy muy feliz de poder brindarles un informe compartido hoy aquí. En primer lugar, Tencent Xiaozhi es un equipo dedicado a proporcionar un paquete de soluciones inteligentes de preguntas y respuestas para gobiernos y diversas industrias. Actualmente se han implementado robots inteligentes de atención al cliente basados en texto y robots telefónicos basados en voz.
En la percepción de la mayoría de las personas, las preguntas y respuestas inteligentes son probablemente las tres impresiones anteriores. En 2011, Watson, que ganó el concurso de preguntas, perdió. Sophia, un robot al que Arabia Saudita le concedió la ciudadanía en 2017; Jarvis, el conocido robot mayordomo de "Iron Man". En la mente de todos, inteligencia significa poder comunicarse como una persona real. Sin embargo, como practicante, lamento decirles que la tecnología actual aún está lejos de alcanzar este objetivo. Creo que la actual tecnología inteligente de preguntas y respuestas es esencialmente una mejora de la tecnología de recuperación de información, un cambio cuantitativo más que cualitativo. Esta joya de la corona todavía está esperando que la recojamos.
Dado que la tecnología de preguntas y respuestas aún no está madura, ¿por qué deberíamos dedicarnos a este campo? Me gustaría responder desde dos perspectivas: A B y A C. Para las empresas, aunque la tecnología actual de preguntas y respuestas no puede responder consultas complejas, la mayoría de las preguntas de encabezado simples se pueden responder muy bien. A partir de esta ola de IA, varios actores iniciales en la pista de PNL han entrado en la dirección del servicio al cliente inteligente. Se puede ver que las empresas tienen una demanda rígida de preguntas y respuestas inteligentes. Para los usuarios comunes, por un lado, los asistentes de voz como Siri brindan a los usuarios interfaces interactivas convenientes todos los días. Por otro lado, los productos para el hogar inteligente como Amazon Echo han ingresado gradualmente a miles de hogares y se han convertido en una de las entradas centrales al hogar. Ecosistema de IoT. Éste es el valor de las preguntas y respuestas inteligentes.
Entonces, ¿cómo implementar un robot inteligente de preguntas y respuestas? Primero echemos un vistazo al principio de implementación del robot de preguntas y respuestas de una sola ronda más básico.
Los amigos que estén familiarizados con los motores de búsqueda encontrarán que esta arquitectura es muy similar a la arquitectura de los motores de búsqueda. En términos generales, una única ronda de preguntas y respuestas son las preguntas frecuentes, y la biblioteca de preguntas y respuestas coincidentes se busca en función de pares de preguntas y respuestas comerciales. Entre ellas, el conjunto de preguntas frecuentes contiene varias preguntas similares que los usuarios pueden responder. En la etapa de preprocesamiento, generalmente se realizan la corrección de errores de texto, la estandarización y la extracción de características de PNL; en la etapa de recuperación, se recordarán varias preguntas candidatas en el índice invertido (clasificación aproximada) y, en la etapa final de coincidencia, se realizará la coincidencia en base; en varios modelos Califique y devuelva la puntuación más alta (subclasificación). Durante la etapa de emparejamiento, se introducirán otros módulos, como gráficos de conocimiento y modelos de rechazo, para ayudar a mejorar la precisión final del emparejamiento.
La coincidencia en la recuperación puede considerarse como una solución ingenua, bolsa de palabras + VSM, seleccionar candidatos es suficiente, pero una buena disposición requiere estrategias más sofisticadas. Primero, debemos utilizar información supervisada para el ajuste, debemos crear un corpus de entrenamiento basado en pares de preguntas y ver si el ajuste coincide con este objetivo binario. En segundo lugar, abandone el modelo de bolsa de palabras escasa en términos de características, en su lugar construya varias similitudes para hacer BaseScore y luego use xgboost, que tiene fuertes capacidades anti-ruido no lineales, para la fusión. Por ejemplo, utilizamos la similitud de modelos binarios de palabras, modelos binarios de palabras, palabras centrales, sustantivos y otros conjuntos de características. Se combinan las ventajas y desventajas de este enfoque. Dado que el modelo solo aprende características literalmente similares, no se ve afectado por el dominio, es universal y adecuado para arranque en frío. Pero también debido a que solo consideramos la similitud literal, no podemos manejar una coincidencia semántica más profunda.
Entonces, ¿cómo medir la similitud semántica? El auge de la tecnología de vectores de palabras es un requisito previo para la coincidencia semántica. El llamado vector de palabras consiste en mapear representaciones simbólicas tradicionales aisladas en espacios vectoriales interrelacionados. Esta correlación o similitud se describe por el contexto de la palabra. Es decir, cuanto más similares sean las palabras en el contexto, más similar será su semántica y más cercana será la distancia euclidiana de los vectores de palabras. Esto es fácil de entender y, mejor aún, la relación conceptual se puede mostrar simplemente sumando y restando vectores. Por ejemplo, el resultado de rey-hombre + mujer está muy cerca de reina, lo que muestra que los vectores de palabras pueden describir la semántica hasta cierto punto. ¿Cómo vectorizar oraciones? Una idea sencilla es sumar y promediar directamente. Las armas de destrucción masiva son otro método interesante y eficaz. Modela el cálculo de la similitud entre oraciones como un problema de transporte. También se puede decir que transportar cada palabra de la oración P a cada palabra de la oración Q es una transformación. El costo de transporte es la similitud del coseno de los vectores de palabras y el peso de cada palabra en la oración que se va a transportar. Utilice programación lineal para encontrar una solución óptima, es decir, la distancia de P a q. Otro método eficaz es SIF. La idea es hacer una suma ponderada de vectores de palabras, pero resalta la parte no universal de la oración. Es decir, utilizando la inversa de la frecuencia de palabras para calcular el peso, los resultados experimentales también son muy buenos.
Un problema con el método anterior es que no utiliza información de supervisión, por lo que el efecto es un límite obvio. Todo el siguiente trabajo se basa en redes profundas para el emparejamiento de aprendizaje supervisado, y el método es relativamente simple. Primero, el texto de la oración está codificado en caliente. Si el tamaño del diccionario es de 500 K, la longitud de codificación es de 500 K de dimensiones, lo que en realidad es equivalente al modelo de paquete. Luego se ingresa a una red neuronal multicapa para aprender y finalmente se obtiene un vector de 128 dimensiones como representación semántica de la oración, y luego se usa el coseno para calcular la similitud entre las dos oraciones y el documento. Este método en realidad asigna características de representación dispersa de alta dimensión a un espacio semántico de baja dimensión, similar a la idea de los vectores de palabras, pero con diferentes objetivos de entrenamiento. Aquí se utiliza una estructura de red profunda.
Pero la capacidad de CNN para procesar el contexto depende del tamaño de la ventana, por lo que no se puede procesar a largas distancias. Por lo tanto, deberíamos considerar otra unidad de red RNN, que está especialmente personalizada para modelos de series temporales. En pocas palabras, el estado oculto en cada momento t, o la codificación semántica en la palabra t, está determinado por dos entradas * * *, a saber, el estado oculto en el momento anterior y la entrada original en el momento actual, para resolver a larga distancia. problemas Desaparición de gradiente y explosión de gradiente causada por la transmisión.
CNN y RNN son unidades básicas para la codificación semántica de entradas originales. Los vectores codificados se pueden conectar a perceptrones multicapa para cálculos de similitud. Si calcula directamente la similitud del coseno, es una versión mejorada de dssm. La forma más común es unir los vectores de codificación de las dos oraciones y luego calcular la similitud a través de un perceptrón multicapa. modelado;
Otra solución considera que la información interactiva entre dos oraciones es obviamente más importante para saber si coinciden. Esta solución se llama modelado interactivo y la imagen de la derecha es un ejemplo típico. La mayor diferencia es que todas las combinaciones de ventanas de las dos oraciones primero se empalman y convolucionan para obtener información interactiva. Luego use la convolución y la agrupación varias veces para representarlo. Otros métodos interactivos incluyen codificación y operaciones interactivas, como diferencia, multiplicación de puntos, etc. y el cálculo de la representación de la atención, que también es un método de interacción común.
A continuación, presentamos nuestra solución. En comparación con el modelo presentado anteriormente, nuestro esquema tiene dos cambios principales. Una es utilizar una estructura de red densamente conectada para que la entrada y la salida de la capa rnn se puedan unir como la entrada de la siguiente capa.
El otro es un mecanismo de atención híbrido, es decir, sobre la base del modelado interactivo mediante el cálculo de vectores de atención, agregamos cálculos de vectores de atención y luego fusionamos los dos vectores de atención a través del mecanismo de puerta para introducir problemas por un lado.
El modelo anterior es un modelo complejo con 5,8 millones de parámetros. En la práctica, habrá una grave escasez de corpus de formación. Para resolver este problema, introducimos una estrategia de aprendizaje por transferencia. En primer lugar, el primero es el aprendizaje conjunto de tareas múltiples, como ajustar si dos preguntas coinciden y clasificar y predecir las preguntas. Además, también puede realizar el entrenamiento del modelo de traducción seq2seq para hacer coincidir pares de preguntas; Ambas estrategias han demostrado ser eficaces para mejorar la precisión.
Otra forma de pensar es más intuitiva y es introducir corpus de otros campos, lo que es la llamada migración multicorpus. El ajuste fino, es decir, el ajuste de parámetros, es uno de los métodos, es decir, primero use un corpus general para entrenar la red, corrija los parámetros de la capa de expresión inferior y luego use el corpus de dominio para ajustar los parámetros. de la capa superior Otra idea se refiere a la idea de aprendizaje adversario, es decir, introducir una nueva tarea "clasificador de confusión" para determinar si la muestra actual proviene del corpus de origen o del corpus de destino, y a la inversa. El término de pérdida de clasificación de confusión se agrega a la función de pérdida para que el clasificador de confusión no distinga la fuente de la muestra tanto como sea posible, asegurando así que la red de expresión de * * parámetros pueda aprender las partes * * * de las dos partes. del corpus.
La introducción anterior es para completar un robot de diálogo básico de una rueda, pero en aplicaciones reales, a menudo hay escenarios que requieren interacción, como consultar saldos de seguridad social, que requieren que los usuarios proporcionen información específica, como como nombre y número de identidad, número de teléfono móvil, etc. Esto se denomina robots orientados a tareas, mientras que otro tipo de robots basados en gráficos de conocimiento a menudo implica múltiples rondas de interacciones. Aquí hay una breve introducción a la arquitectura del robot de diálogo de múltiples turnos. Es un sistema de gestión de diálogo en su conjunto. Generalmente gestiona el estado de la conversación e incluye cuatro módulos, a saber, la parte de entrada: NLU, que es responsable del reconocimiento de intenciones. y extracción de entidades de ranura. Por ejemplo, si la intención es consultar su saldo de Seguro Social, extraiga el número de Seguro Social. Los valores de intención y ranura obtenidos se enviarán al módulo de seguimiento del estado del diálogo DST, que es responsable de actualizar el estado del diálogo. Formalmente, es una función. La entrada es la intención y el valor de ranura Q obtenidos mediante el procesamiento NLU del estado actual S y la consulta actual, y se generará el nuevo estado S'. El siguiente paso es enviar S' al módulo de política de diálogo DPL, que genera la acción A basada en el nuevo estado S'. Normalmente, esta elección de decisión dependerá de una base de datos externa o.
Uno de los problemas con el robot de preguntas y respuestas de una sola ronda mencionado anteriormente es que la precisión de la pregunta y la respuesta depende de la calidad de la biblioteca de preguntas y respuestas, y de la construcción de la pregunta y la respuesta. La biblioteca requiere mucho tiempo y es laboriosa, por lo que es muy ideal extraer la respuesta directamente de documentos no estructurados con grandes cantidades de datos. Por ejemplo, drQA de código abierto de la Universidad de Stanford es un robot de preguntas y respuestas de dominio abierto basado en el corpus de Wikipedia. Echemos un vistazo a la arquitectura de este robot de comprensión lectora. También se basa en la idea de reordenamiento de recuperación. Primero, se extraen los posibles párrafos del corpus y luego se envían al modelo de comprensión lectora para su posicionamiento, puntuación y clasificación, y se selecciona la respuesta con la puntuación más alta. El modelo de comprensión lectora es similar al modelo de coincidencia y primero necesita codificar las preguntas y los párrafos candidatos, pero la diferencia es que el objetivo de predicción final son las posiciones inicial y final de la respuesta. El año pasado, mi equipo ganó el primer lugar en Squad v1, una evaluación pública autorizada de comprensión lectora. Al mismo tiempo, en esta evaluación participaron pares nacionales y extranjeros, incluidos Google, Facebook, Microsoft, Alibaba idst e iFlytek. Esto demuestra que la industria todavía concede gran importancia a esta tecnología.
Compartamos la experiencia de Xiaozhi al poner en producción la tecnología anterior. Primero, echemos un vistazo al diagrama de arquitectura general de Xiaozhi. El motor central tiene dos partes, una es el modelo de coincidencia semántica profunda resaltado anteriormente y la otra es el motor de gráficos de conocimiento que no se amplía en este intercambio. Sobre esta base, construimos robots de preguntas frecuentes, robots de diálogo de rondas múltiples (robots de tareas), robots de chat, etc. A continuación se muestran ejemplos de nuestros robots de una o varias ruedas.
En nuestro proyecto de implementación real, gracias a las capacidades de coincidencia semántica del modelo de migración profunda, así como a la coincidencia precisa y al cuestionamiento auxiliar del gráfico de conocimiento de la industria, el robot Xiaozhi puede lograr una precisión de respuesta de aproximadamente 95% Ahorre más del 50% de la mano de obra de servicio, mejore efectivamente la eficiencia y reduzca los costos para los gobiernos y las empresas.
Sobre la base del servicio al cliente inteligente, también hemos creado un robot telefónico basado en voz, que integra fuertemente el servicio al cliente inteligente, el servicio al cliente manual en línea, el sistema de órdenes de trabajo y el robot telefónico para crear un sistema de ventas. servicio impulsado para los clientes. La solución general desde el frente hasta la posventa.
El siguiente es el diagrama de arquitectura general del robot telefónico. Su núcleo es el módulo NLU, que es responsable de identificar la intención de la pregunta del usuario.
Seleccione la entidad relevante. Según el resultado de NLU, el motor de gestión de conversaciones integrado fluirá y rastreará el estado del proceso.
Además, el reconocimiento de voz ASR y la síntesis de voz TTS son servicios esenciales. Estos tres módulos cooperan entre sí para completar la interacción con los usuarios.
Finalmente, expongo algunas opiniones sobre el desarrollo futuro de las preguntas y respuestas inteligentes. Actualmente, en la comunidad académica se reconoce que los modelos y las reglas deben combinarse de manera más orgánica. En el campo de preguntas y respuestas, una gran parte de las reglas son gráficos de conocimiento, incluidos gráficos de conocimiento en campos abiertos y gráficos de conocimiento en campos profesionales. Además, necesitamos estudiar mapas de conocimiento racional con propiedades inferenciales para describir las reglas y el conocimiento en el campo, de modo que los robots puedan manejar problemas en condiciones complejas y proporcionar respuestas más inteligentes. En mi opinión, un gran avance para las preguntas y respuestas inteligentes es resolver los tres problemas anteriores. Con esto finaliza el intercambio de hoy. Gracias.
El orador presentó:
Chen Songjian, investigador senior de algoritmos del Departamento de Plataforma de Datos de Tencent, tiene 8 años de experiencia en investigación y desarrollo de PNL. Se unió al Departamento de Plataforma de Datos de Tencent TEG en 2017 y es responsable de la planificación e implementación del algoritmo de Tencent Xiaozhi, un producto inteligente de servicio al cliente. Ha sido responsable de múltiples proyectos de servicio al cliente inteligente y tiene una rica experiencia práctica en preguntas y respuestas inteligentes en áreas cerradas.