Red de Respuestas Legales - Derecho empresarial - Aplicación del procesamiento del lenguaje natural en el sistema judicial (resumen)

Aplicación del procesamiento del lenguaje natural en el sistema judicial (resumen)

Los profesionales forenses tienden a considerar enfoques basados ​​en reglas y símbolos para resolver tareas, mientras que los investigadores de PNL consideran principalmente enfoques integrados y basados ​​en datos.

Este artículo analiza principalmente la historia, la situación actual y las direcciones de investigación futuras de la inteligencia artificial legal.

Se analizan en profundidad los trabajos existentes a través de experimentos, se analizan sus ventajas y desventajas y se revelan algunas direcciones de investigación futuras.

Los modelos simbólicos interpretables son ineficientes, los métodos de incrustación funcionan mejor, pero a menudo no son muy interpretables y son muy problemáticos en algunas cuestiones moralmente relevantes: los clásicos prejuicios raciales y de género.

Resumimos tres desafíos principales que enfrentan los métodos basados ​​en símbolos y los métodos basados ​​en incrustaciones:

Las principales contribuciones de este artículo son las siguientes:

Palabras y La incrustación de palabras es muy importante.

Es difícil aprender vocabulario profesional directamente a partir de la descripción de casos judiciales. Para superar esta dificultad, podemos capturar simultáneamente información gramatical y conocimiento judicial.

Los métodos de gráficos de conocimiento son prometedores en el campo judicial, pero antes de su uso práctico, todavía quedan dos desafíos principales:

Estos dos desafíos hacen que LegalAI se vuelva más poderoso a través del modelado de conocimiento integrado. muy importante. Los investigadores trabajarán para superar estas dificultades en el futuro.

Los modelos de lenguaje preentrenados (PLM), como BERT, han atraído recientemente la atención en muchos campos de la PNL. Dado el éxito del modo de preformación, utilizar el modo de preformación en LegalAI es una opción muy razonable y sencilla. Sin embargo, dentro de los textos judiciales aún existen algunas diferencias. Si estos PLM se utilizan directamente, se producirá un rendimiento deficiente. Estas diferencias surgen de la terminología y conocimientos contenidos en los textos judiciales. Para resolver estos problemas, Zhong (2019) propuso un modelo de capacitación previa para documentos judiciales chinos que incluyen casos civiles y penales. PLM diseñado para el ámbito judicial proporciona un sistema de referencia de mayor calidad para tareas legales. En experimentos, comparamos diferentes modelos BERT adecuados para tareas legales.

Para explorar PLM en LegalAI en el futuro, los investigadores pueden centrarse en integrar el conocimiento en PLM. Integrar conocimientos en modelos de preformación facilita el razonamiento entre conceptos judiciales. Se ha trabajado mucho para integrar dominios comunes en el modelo.

Los métodos basados ​​en símbolos también se denominan métodos de predicción estructurados.

El conocimiento judicial simbólico incluye: eventos y relaciones, que pueden proporcionar interpretabilidad.

Se pueden utilizar métodos de aprendizaje profundo para mejorar el rendimiento de los métodos basados ​​en símbolos.

La extracción de información ha sido ampliamente estudiada en el procesamiento del lenguaje natural. IE enfatiza la extracción de información valiosa del texto, así como algunas tecnologías como el reconocimiento de entidades, la extracción de relaciones y la extracción de eventos.

Para hacer un mejor uso de los textos judiciales, los investigadores han intentado utilizar la ontología o la coherencia global en la tarea de reconocimiento de entidades nombradas de LegalAI. Para extraer relaciones y eventos de textos forenses, los investigadores intentan utilizar diferentes métodos, entre ellos: reglas hechas a mano, CRF (no sé qué es esto), modelos federados como SVM, CNN, GRU o identificadores de red sin escala. (No tengo idea de qué es esto).

El trabajo existente ha realizado grandes esfuerzos para mejorar la eficacia de IE, pero debemos prestar más atención a cómo hacer un buen uso de la información extraída. Estos símbolos extraídos tienen una base legal y pueden proporcionar interpretabilidad para aplicaciones judiciales. Por lo tanto, no puede centrarse únicamente en el rendimiento del método. Aquí, mostramos dos ejemplos del uso de símbolos extraídos para mejorar las capacidades de interpretación legal:

En trabajos futuros, debemos prestar más atención a la aplicación de información extraída en tareas LegalAI. El uso de esta información depende de las necesidades de la tarea específica y esta información puede proporcionar una mayor interpretabilidad.

Además de los símbolos * * * en PNL, LegalAI también tiene un símbolo único llamado elemento legal. La extracción de elementos legales se centra en extraer algunos elementos clave, como si alguien fue asesinado y si algo fue robado. Estos elementos son los elementos básicos de un delito y podemos condenar directamente al delincuente en base a estos elementos.

El uso de estos elementos no solo aporta información de supervisión directa a las tareas de juicio y predicción, sino que también hace que los resultados de predicción del modelo sean más interpretables.

Como se puede ver en este ejemplo, los elementos extraídos pueden determinar el resultado del juicio. Estos elementos son útiles para tareas posteriores.

Para analizar más profundamente los símbolos basados ​​en elementos, Shu (2019) construyó tres conjuntos de datos para extraer elementos: disputas de divorcio, disputas laborales y disputas de préstamos. Estos conjuntos de datos requieren que verifiquemos si se cumplen los elementos relevantes, estandarizando esta tarea como una tarea de clasificación de etiquetas múltiples. Para demostrar el rendimiento de los métodos de extracción de elementos existentes, realizamos una serie de experimentos, como se muestra en la siguiente tabla.

Para probar la extracción de elementos, implementamos varios modelos de codificación clásicos en PNL. Incluyendo TextCNN, DPCNN, LSTM, BiDAF y BERT. Utilizamos dos parámetros de preentrenamiento BERT diferentes (BERT original, BERT: Bert-MS entrenado con documentos judiciales chinos). De este resultado se puede ver que el modelo de formación previa en campos generales no es tan eficaz como en campos específicos. Ésta es la necesidad de que LegalAI promueva el PLM. En el siguiente artículo, utilizaremos BERT para entrenar previamente documentos legales para lograr un mejor rendimiento.

A juzgar por los resultados actuales de extracción de elementos, los métodos existentes han logrado buenos resultados, pero no son suficientes en aplicaciones relacionadas. Estos elementos pueden considerarse como conocimientos jurídicos predefinidos y como ayuda en las tareas posteriores. Cómo mejorar la extracción de elementos también requiere más investigación.

Presentamos varias aplicaciones típicas:

Predicción de sentencias legales

Coincidencia de casos similares

Preguntas y respuestas legales

La predicción de sentencias legales y la comparación de casos similares pueden considerarse funciones centrales de los sistemas de derecho civil y de derecho consuetudinario. Legal Q&A puede brindar servicios de consultoría a personas que no comprenden la ley. Entonces, explorar estas tres tareas puede cubrir básicamente la mayoría de los aspectos de LegalAI.

La LJP es un sistema importante en el sistema legal civil de mi país. En el ordenamiento jurídico civil, las sentencias se basan en hechos y disposiciones legales. La principal preocupación de la LJP es cómo predecir el resultado de la sentencia a través de la descripción de los hechos y las disposiciones pertinentes del derecho civil.

A continuación se presentará el progreso de la investigación y las futuras direcciones de investigación de LJP.

El trabajo preliminar incluye: utilizar métodos estadísticos y matemáticos para analizar casos judiciales en escenarios específicos. Al mismo tiempo, se combinan métodos matemáticos y reglas judiciales para que los resultados de la predicción sean interpretables.

En respuesta al progreso, Xiao (2018) propuso un conjunto de datos de predicción de sentencias penales chinos a gran escala C-C (C significa chino). Este conjunto de datos contiene 2,68 millones de documentos judiciales y es un punto de referencia eficaz para LJP. C-LJP contiene tres subtareas: artículos relacionados, tarifas aplicables y término de multa. Las dos primeras pueden formalizarse como tareas de clasificación de etiquetas múltiples y la última es una tarea de regresión. También existe un LJP inglés, pero su escala es relativamente pequeña.

Con el desarrollo de la PNL, los investigadores de LJP comenzaron a considerar el uso de tareas de PNL. Estos trabajos se pueden dividir en dos direcciones principales: 1. Utilización del modelo actualizado para mejorar el rendimiento: Chen (2019) utilizó el mecanismo de puerta para mejorar el rendimiento del encarcelamiento $TERM, y Pan (2019) propuso utilizar atención multiescala para manejar casos con múltiples acusados. Además, otros investigadores exploran cómo utilizar el conocimiento jurídico y algunas propiedades de LJP. Luo (2017) presta atención entre los artículos fácticos y jurídicos para ayudar a predecir los cargos aplicables. Zhong (2018) utilizó gráficos topológicos para explotar las relaciones entre diferentes tareas. Hu (2018) integró atributos legales distinguibles que ayudan a predecir acusaciones de baja frecuencia.

Una serie de experimentos en C-LJP

Resultados experimentales:

Se puede ver que muchos modelos han logrado buenos resultados en la predicción de cargas de alta frecuencia y artículos. Sin embargo, tiene un rendimiento deficiente en etiquetas de baja frecuencia, lo que demuestra que existe una gran brecha entre micro F1 y macro F1.

Hu (2018) dio una aplicación del aprendizaje con menos disparos en . Sin embargo, su modelo requiere agregar manualmente información de atributos adicionales, lo que lo hace muy laborioso y difícil de aplicar a otros conjuntos de datos.

Además, descubrimos que el rendimiento de BERT no era lo suficientemente bueno ya que no hubo mejoras en algunos modelos con menos parámetros de modelo. La razón principal es que la longitud de los textos judiciales es generalmente larga, pero la longitud más larga del texto BERT es 512. Según las estadísticas, el texto judicial más largo supera las 50.000 palabras y los 15 campos del documento superan las 512. Por lo tanto, LJP requiere cierta comprensión de documentos y habilidades de razonamiento.

Aunque los métodos basados ​​en incrustaciones han logrado buenos resultados, en LJP necesitamos combinar métodos basados ​​en incrustaciones y métodos basados ​​en símbolos. Tomemos como ejemplo a TopJudge. El modelo formaliza el orden topológico de la tarea LJP (parte basada en símbolos) y utiliza TextCNN para codificar descripciones de hechos. (Tengo un poco de curiosidad acerca de cómo hacer un orden topológico en este TopJudge a través de un enfoque basado en símbolos. ¿Qué tan útil es para el modelo?) Al combinar métodos basados ​​en símbolos y métodos basados ​​en incrustaciones, TopJudge ha logrado mejores resultados. Al comparar TextCNN y TopJudge, podemos encontrar que aumentar el orden de juicio puede mejorar el rendimiento.

Para un mejor rendimiento de LJP. Los investigadores deben explorar algunos desafíos:

En países que utilizan sistemas de derecho consuetudinario (que parecen interpretarse como un sistema legal de archivos, los casos se deciden a través de casos similares), como Estados Unidos, Canadá y En India, todos los casos se deciden mediante casos similares y casos representativos para tomar decisiones. Por lo tanto, cómo identificar casos similares es la cuestión más apremiante en el sistema de derecho consuetudinario.

Para predecir mejor los resultados de los juicios del sistema de derecho consuetudinario, la comparación de casos similares se ha convertido en un tema importante en la comunidad jurídica. Las definiciones de similitud en SCM también son diversas. La gestión de la cadena de suministro requiere modelar las relaciones entre casos a partir de diferentes granularidades de información, como nivel de hecho, nivel de evento y nivel de elemento. En otras palabras, SCM es una forma especial de coincidencia semántica que ayuda a extraer información legal.

Los métodos tradicionales de recuperación de información se centran en el uso de métodos estadísticos para medir la similitud a nivel de término, como TF-IDF. Además, otros investigadores también han intentado utilizar metainformación para capturar similitudes semánticas. Muchos métodos de aprendizaje automático también se aplican a la IR, como SVD o factorización. Con el desarrollo del aprendizaje profundo, el perceptrón multicapa, CNN y RNN también se han aplicado a la recuperación de información.

Ya existen algunos conjuntos de datos legales: COLIEE, CaseLaw, CM. Tanto COLIEE como CaseLaw se utilizan para extraer los artículos más relevantes de grandes corpus. La muestra de datos en CM proporciona tres documentos judiciales para calcular la similitud. Cada uno de estos conjuntos de datos proporciona un punto de referencia. Muchos investigadores se han centrado en crear un motor de búsqueda legal fácil de usar (una versión judicial de Google).

Con el objetivo de calcular la similitud a nivel semántico, en LegalIR se utilizan métodos de aprendizaje profundo. Tran (2019) propuso un modelo basado en CNN que combina la agrupación a nivel de documento y a nivel de oración para lograr el efecto SOTA en COLIEE.

Para comprender mejor el progreso actual de LegalIR, realizamos experimentos utilizando CM (Xiao 2019). CM contiene 8964 tripletas, cada tripleta contiene tres documentos judiciales (A, B, C). La tarea de CM es distinguir cuál está más cerca de A que de B o de c. Implementamos varios tipos diferentes de líneas de base:

Encontramos que este modelo funcionó mejor que TF-IDF en la captura de información semántica, pero fue insuficiente para su aplicación en la gestión de la cadena de suministro. Como afirmó Xiao (2019), la razón principal es que los elementos del conjunto de datos definen las similitudes entre los casos judiciales. El personal judicial prestará más atención a si existen elementos relevantes en los dos casos. No es suficiente considerar únicamente las similitudes a nivel de término y a nivel semántico.

Es necesario realizar más investigaciones sobre la gestión de la cadena de suministro en las siguientes direcciones:

Preguntas y respuestas legales (LQA): un sistema de preguntas y respuestas en el ámbito judicial.

Una tarea muy importante de los profesionales judiciales es proporcionar servicios de consultoría judicial confiables y de alta calidad a personas que no entienden la ley.

En LQA, el formato de las preguntas variará mucho: algunas preguntas enfatizan la explicación de conceptos judiciales, mientras que otras consideran principalmente el análisis de casos específicos. Además, puede haber diferencias en la expresión del vocabulario profesional entre profesionales y no profesionales, y estos problemas plantean muchos desafíos a la LQA.

Hay muchos conjuntos de datos en LegalAI. Duan (2019) propuso un conjunto de datos para la comprensión lectora judicial, cuyo formato es similar al SQUAD 2.0, que incluye extracción de intervalos, preguntas de verdadero y falso y preguntas sin respuesta. Además, COLIEE contiene 500 preguntas de sí o no. Además, el examen de calificación del colegio de abogados es un examen muy importante para los abogados, por lo que es difícil recopilar información para el examen de calificación del colegio de abogados porque requiere conocimientos y habilidades judiciales profesionales.

Además de estos conjuntos de datos, los investigadores también han utilizado muchos métodos en LQA. Los sistemas basados ​​en reglas lograron resultados notables en las primeras investigaciones. Para lograr un mejor rendimiento, los investigadores utilizan más información para ayudar al razonamiento, como explicaciones de conceptos o formatear documentos relacionados en diagramas. En LQA también se utilizan métodos de aprendizaje automático y aprendizaje profundo, como CRF, SVM y CNN. Sin embargo, la mayoría de los métodos existentes sólo se prueban en pequeños conjuntos de datos.

Elegimos JEC-QA como conjunto de datos para el experimento porque es el conjunto de datos más grande recopilado del examen de la barra para garantizar su dificultad. JEC Q&A contiene 286,465,438 0 opciones múltiples, respuestas a preguntas múltiples y 79,433 artículos relacionados para ayudar a responder preguntas. JEC Q&A divide las preguntas en preguntas basadas en conocimientos (preguntas KD) y preguntas de análisis de casos, y proporciona desempeño humano. Implementamos varios modelos de control de calidad representativos, incluidos BiDAF, BERT, Co-matching y HAF, y estos resultados experimentales se muestran en la Tabla 6.

A través de la comparación, se encuentra que estos modelos no pueden lograr los mismos buenos resultados que lo hacen al responder preguntas de campo abierto al responder estas preguntas judiciales. En LQA, existe una enorme brecha entre los modelos y los humanos.

Para tener un mejor enfoque LQA, hay varias dificultades que deben superarse:

Además de este artículo, hay otras tareas legales: resumen de textos legales y extracción de textos legales. información de contratos. En cualquier caso, podemos aplicar métodos basados ​​en incrustaciones para mejorar el rendimiento y combinarlos con métodos basados ​​en símbolos para mejorar la interpretabilidad.

Tres desafíos principales:

Los futuros investigadores pueden combinar principalmente métodos de incrustación y métodos simbólicos para resolver estos tres desafíos.

Para algunas tareas, no hay un conjunto de datos o el conjunto de datos no es lo suficientemente grande. Podemos intentar construir conjuntos de datos de alta calidad a gran escala o utilizar métodos de aprendizaje de pocas posibilidades o de cero posibilidades para resolver estos problemas.