Red de Respuestas Legales - Derecho empresarial - Lección 16 de PNL: Análisis práctico de la dependencia de la sintaxis china

Lección 16 de PNL: Análisis práctico de la dependencia de la sintaxis china

El análisis sintáctico es una de las tecnologías clave del procesamiento del lenguaje natural. Su tarea básica es determinar la estructura sintáctica de una oración o la relación de dependencia entre las palabras de una oración. Incluye principalmente dos aspectos: uno es determinar el sistema gramatical del idioma, es decir, definir formalmente la estructura gramatical de las oraciones legales en el idioma, el otro es la tecnología de análisis sintáctico, es decir, deducir automáticamente la estructura sintáctica de; la oración basada en el sistema gramatical dado, analizar las unidades sintácticas contenidas en la oración y la relación entre estas unidades sintácticas.

Existen muchos escenarios de aplicación para el análisis sintáctico, como análisis de registros de usuarios de motores de búsqueda, identificación de palabras clave, extracción de información, respuesta automática a preguntas, traducción automática y otras tareas relacionadas con el procesamiento del lenguaje natural.

El análisis de sintaxis debe seguir un determinado sistema gramatical, y la forma de expresión del árbol de sintaxis se determina en función de la gramática de este sistema. Veamos la siguiente oración:

Utilice la herramienta de visualización Stanford Parser para ver todo el proceso de análisis sintáctico:

El árbol de estructura de frase consta de nodos terminales, nodos no terminales y etiquetas de frase. Las reglas gramaticales de las cláusulas forman una frase en varios puntos finales, como no puntos finales que participan en la siguiente especificación hasta el final. Como se muestra en la siguiente figura:

El análisis sintáctico de dependencia revela la estructura sintáctica de una unidad lingüística al analizar las dependencias entre sus componentes.

Intuitivamente hablando, el propósito de la sintaxis de dependencia es analizar e identificar componentes gramaticales como "sujeto, predicado, objeto" y "complemento definido" en la oración, y analizar la relación entre los componentes.

No hay puntos no terminales en la estructura de la sintaxis de dependencia. Existe una relación de dependencia directa entre las palabras, formando un par de dependencia. Una de ellas es la palabra central, también llamada palabra dominante. el otro se llama modificador, también llamado modificador. Se llama palabra subordinada.

Las relaciones de dependencia se representan mediante arcos dirigidos, llamados arcos de dependencia. La dirección del arco de dependencia es de la palabra subordinada a la palabra dominante, pero también es posible lo contrario y se puede expresar de manera uniforme según los hábitos personales.

Por ejemplo, la siguiente oración:

El resultado del análisis de sintaxis de dependencia es el siguiente (usando LTP del Instituto de Tecnología de Harbin):

Puede ser Del análisis se desprende que el predicado central de esta oración es "propuesta", el sujeto es "Li Keqiang", el objeto es "apoyar a Shanghai ...", "investigación ..." es el adverbial de "propuesta" , el modificador de "Li Keqiang" es "Primer Ministro del Consejo de Estado" y el objeto de "apoyo" es "Explorar nuevos mecanismos".

Con los resultados del análisis de sintaxis de dependencia anterior, no es difícil ver que el proponente es Li Keqiang, no Shanghai o Waigaoqiao, aunque ambos son sustantivos y están más cerca del proponente.

La sintaxis de dependencia explica la estructura sintáctica de una unidad lingüística analizando las relaciones de dependencia entre los componentes anteriores a ella, argumentando que el verbo central de una oración es el componente central que domina a otros componentes. Sin embargo, no está dominado por ningún otro componente y todos los componentes dominados están subordinados de alguna manera al dominante.

En la década de 1970, Robinson propuso cuatro axiomas sobre la dependencia en la sintaxis de la dependencia. En el estudio del procesamiento de información chino, los académicos chinos propusieron el quinto axioma sobre la dependencia, de la siguiente manera:

Los componentes de las oraciones se encuentran comúnmente en el vocabulario chino (compuestos), frases, oraciones simples, párrafos y capítulos. Los fenómenos de dominación y dominación mutua, dependencia y dependencia se pueden utilizar y expresar de forma independiente. Esta característica refleja la universalidad de la dependencia. El análisis de sintaxis de dependencia puede reflejar la relación de modificación semántica entre los componentes de la oración y puede obtener información de colocación a larga distancia sin considerar la ubicación física de los componentes de la oración.

La relación de anotación del análisis de dependencia (***14) y su significado se muestran en la siguiente tabla:

El análisis sintáctico de dependencia semántica (SDP) consiste en analizar la semántica entre unidades lingüísticas. de una oración Asociaciones, y presentar asociaciones semánticas en estructuras de dependencia. La ventaja de utilizar la dependencia semántica para describir la semántica de las oraciones es que no es necesario abstraer el vocabulario en sí, sino describir el vocabulario a través del marco semántico que conlleva. El número de argumentos es siempre mucho menor que el vocabulario.

El objetivo del análisis de dependencia semántica es obtener directamente información semántica profunda más allá de las limitaciones de la estructura sintáctica superficial de la oración. Por ejemplo, las siguientes tres oraciones expresan la misma información semántica de diferentes maneras, es decir, Zhang San realizó una acción de comer y la acción de comer se realizó en una manzana.

El análisis de dependencia semántica no se ve afectado por la estructura sintáctica. Las unidades lingüísticas que están directamente relacionadas semánticamente están conectadas directamente con arcos de dependencia y se marcan las relaciones semánticas correspondientes. Ésta también es una diferencia importante entre el análisis de dependencia semántica y el análisis de sintaxis de dependencia.

Las dependencias semánticas se dividen en tres categorías, principalmente roles semánticos, cada rol semántico tiene relaciones anidadas y relaciones anti-evento, que describen la relación entre dos etiquetas de adjuntos semánticos, las etiquetas hablan Información dependiente como; el tono de voz de una persona.

Finalmente, implementamos ejercicios prácticos de sintaxis de dependencia a través de la biblioteca Pyhanlp. Durante este proceso, optamos por confiar en las herramientas del visor para la visualización. Al visualizar, el documento de texto debe estar codificado en UTF-8.

Primero introduce el paquete, y luego podrás analizarlo directamente:

Los resultados obtenidos:

Luego, guardamos los resultados en un archivo txt:

Finalmente, visualícelo a través de la herramienta Visor de dependencias.

Si hay caracteres confusos, recuerde guardar el documento de texto como UTF-8. El resultado visual es el que se muestra a continuación:

Este artículo presenta primero el sistema gramatical y cómo determinar el árbol de sintaxis de una oración. sobre el sistema gramatical, que proporcionará la base para lo siguiente. Sentar las bases para el análisis sintáctico.

Luego presenta la sintaxis de dependencia, cuyo propósito es revelar la estructura sintáctica de una unidad lingüística mediante el análisis de las relaciones de dependencia entre componentes, y luego explica las cinco relaciones de dependencia en la sintaxis de dependencia.

Finalmente, se introduce más la dependencia semántica, que es diferente de la sintaxis de dependencia. Su propósito es analizar la correlación semántica entre unidades lingüísticas de oraciones y presentar la correlación semántica en forma de estructura de dependencia.

Al final del artículo, profundizaremos aún más nuestra comprensión de la sintaxis de dependencia china a través de la práctica y visualización de Pyhanlp.

Materiales de referencia y lecturas recomendadas: