Red de Respuestas Legales - Información empresarial - La herramienta (sistema) de búsqueda de documentos de patente es un sistema de traducción que puede traducir automáticamente documentos de patente.

La herramienta (sistema) de búsqueda de documentos de patente es un sistema de traducción que puede traducir automáticamente documentos de patente.

Este artículo presenta un práctico sistema de traducción automática chino-inglés para documentos de patente, incluido el diseño general del sistema y las principales tecnologías de traducción utilizadas en el sistema. Con la mejora de la conciencia sobre la propiedad intelectual en mi país y la urgente necesidad de intercambios internacionales, la traducción manual tradicional realizada por traductores de patentes ya no puede satisfacer la creciente demanda de traducción de documentos de patentes, lo que hasta cierto punto obstaculiza la promoción y el intercambio de los derechos patentados de mi país. tecnología. La traducción automática y la traducción asistida son formas eficaces de solucionar este problema. En los últimos años, la tecnología de traducción automática ha logrado grandes avances, especialmente el desarrollo de la tecnología de traducción automática estadística, que ha mejorado enormemente la calidad de la traducción y ha proporcionado un medio nuevo y potente para la traducción de documentos de patente.

Características de la traducción de documentos de patente

En comparación con la traducción de textos ordinarios, la traducción de documentos de patente tiene las siguientes características:

●Involucra muchos campos profesionales. Los documentos de patente tienen fuertes características de dominio y es difícil obtener resultados de traducción ideales utilizando directamente el software de traducción general existente. Sin embargo, los campos de los documentos de patente se pueden dividir según los números de la Clasificación Internacional de Patentes, lo cual es relativamente claro. Al mismo tiempo, después de años de acumulación, es relativamente fácil obtener corpus paralelos bilingües en campos específicos, lo que facilita la recopilación de corpus y la división de dominios para la traducción automática.

●Se utilizan muchos términos técnicos y legales. Los documentos de patente contienen una gran cantidad de términos técnicos y legales, que requieren un alto nivel de calidad integral por parte del traductor. En consecuencia, la remuneración por la traducción de patentes también es muy alta. Por ejemplo, la tarifa de traducción que se paga para traducir un idioma nativo a un idioma extranjero en el extranjero es de entre 30 y 50 dólares estadounidenses por cada 100 palabras fuente. Para algunos idiomas raros, el precio de los servicios de traducción será mayor. Por lo tanto, utilizar la traducción automática o la traducción asistida para resolver el problema de traducción de términos técnicos y legales puede reducir en gran medida el costo de la traducción de patentes.

●Traducido a muchos idiomas. Dado que los documentos de patente tienen ciertas características nacionales, a menudo es necesario traducirlos entre diferentes idiomas. Si se establece un sistema de traducción para cada dirección de traducción de idiomas, requerirá muchos costos de desarrollo. Por lo tanto, utilizar tecnología de traducción independiente del idioma es una opción razonable.

●El formato del documento está estandarizado y el lenguaje es riguroso. Los documentos de patente tienen ciertas características de los documentos legales, por lo que, en comparación con las noticias o la traducción oral, el formato del texto es relativamente fijo y el idioma está relativamente estandarizado. Los documentos de patente a menudo contienen algunos patrones de oraciones fijas, comúnmente conocidos como "conjuntos de oraciones", como "El propósito de la presente invención es X", "X descrito en la reivindicación N se caracteriza por Y", donde X e Y pueden ser cualquier palabra. u oración, N es cualquier combinación de números. Estas plantillas de oraciones son adecuadas para la traducción automática.

Al analizar las características anteriores de los documentos de patente, se puede ver que para las traducciones de patentes con formularios estandarizados y campos claros, es posible lograr mejores resultados de traducción utilizando métodos de traducción automática. En particular, el rápido desarrollo reciente de la tecnología de traducción automática estadística tiene las características de buena independencia del idioma, buena portabilidad de dominio, adquisición conveniente de conocimientos y ciclo de desarrollo corto. Es muy adecuado para construir un sistema de traducción de documentos de patente.

El Laboratorio de Tecnología Interactiva Multilingüe del Instituto de Tecnología Informática de la Academia de Ciencias de China tiene muchos años de experiencia en la investigación de traducción automática y ha logrado buenos resultados en la investigación de traducción automática estadística en los últimos años. Beijing Oriental Lingdun Technology Co., Ltd. tiene una gran demanda de traducción de documentos de patentes y espera mejorar aún más la calidad y eficiencia de la traducción con la ayuda del software de traducción automática. Por encargo de Oriental Lingdun Technology Co., Ltd., investigadores informáticos utilizaron la tecnología de traducción automática estadística acumulada en el laboratorio interactivo multilingüe y la combinaron con las características de la traducción de documentos de patente para diseñar e implementar un sistema de traducción de documentos de patente chino-inglés en un campo específico. . Actualmente, el campo de traducción del sistema son los documentos de patentes de medicina china. Gracias al uso de tecnología de traducción automática estadística, el sistema se puede trasplantar fácilmente a la traducción de patentes en otros campos técnicos.

Diseño general del sistema

Para satisfacer las necesidades de tareas simultáneas, multiusuario y a gran escala, este sistema adopta el modelo de servicio de red servidor/cliente y adopta múltiples programación de hilos. La estructura física y el flujo lógico del sistema son los siguientes:

1. Estructura física

La estructura física del sistema de traducción automática de documentos de patente chino-inglés consta de dos partes, que incluyen :

●Servidor del motor de traducción: Responsable de brindar servicios de traducción y administrar los recursos de traducción.

●Cliente: Responsable de presentar los resultados de la traducción a los usuarios, proporcionar herramientas de traducción auxiliares y enviar solicitudes de los usuarios al servidor.

Entre ellos, el servidor almacena principalmente el decodificador central de traducción y los diversos recursos que requiere, como listas de frases, modelos de lenguaje, bibliotecas de plantillas, diccionarios, bibliotecas de memoria, etc. El servidor gestiona estos recursos de manera uniforme y los programa de manera razonable. Al mismo tiempo, el servidor es responsable de la programación y asignación de intervalos de tiempo de cada hilo de usuario y coordina la prioridad de las tareas enviadas por cada usuario.

El cliente se divide en cliente de usuario normal y cliente de usuario administrador. Los diferentes usuarios tienen diferentes permisos. El cliente proporciona a los usuarios una interfaz conveniente de edición y modificación, y también brinda a los usuarios la función de ver el estado de la tarea y el estado del servidor, y pueden acceder y modificar algunos recursos en el servidor en tiempo real. A través del cliente, los usuarios pueden cargar fácilmente archivos en lotes para traducir, modificar los resultados devueltos, volver a enviar la traducción y exportar los resultados de la traducción en lotes.

Tanto el servidor como el cliente son procesos que pueden ejecutarse de forma independiente y están conectados entre sí a través de la red.

2. Proceso lógico

La estructura lógica del sistema es el marco comercial general del sistema, que describe todo el proceso desde la entrada de datos, los resultados esperados obtenidos a través del procesamiento interno del mismo. sistema, hasta la salida final (consulte la Figura 1 para ver el diagrama de referencia del flujo lógico de este sistema).

Específicamente, el proceso principal del sistema se describe a continuación:

●Servicio de traducción: Responsable de traducir oraciones o archivos de texto enviados por los usuarios y generar los resultados de la traducción. Durante el proceso de traducción, se llamará al programa de administración de memoria, al programa de administración de diccionario y al programa de administración de biblioteca de plantillas para acceder a la biblioteca de modelos de traducción estadística.

●Gestión de memoria: Responsable de organizar y gestionar la memoria, y realizar operaciones como consultar, agregar, modificar, eliminar y exportar ejemplos de traducción. Cuando un usuario o traductor envía una solicitud de operación de memoria, el módulo de administración de memoria accede a la memoria, realiza la operación correspondiente y retroalimenta el resultado.

●Gestión de diccionarios: Responsable de organizar y gestionar todos los diccionarios del sistema, y ​​realizar operaciones como consulta de diccionario, adición, eliminación, importación y exportación por lotes, etc. Cuando un usuario o traductor envía una solicitud de operación de diccionario, el módulo de administración de diccionario accede a la biblioteca de diccionarios del sistema, realiza la operación correspondiente y retroalimenta los resultados.

●Gestión de la biblioteca de plantillas: Responsable de organizar y administrar la biblioteca de plantillas y realizar operaciones como consultar, agregar, modificar, eliminar, importar y exportar plantillas. Cuando un usuario o traductor envía una solicitud de operación de plantilla, el módulo de administración de plantillas accede a la biblioteca de plantillas, realiza la operación correspondiente y retroalimenta los resultados.

●Gestión de usuarios: Responsable de recibir y ejecutar operaciones como agregar, eliminar y configurar permisos para los usuarios.

Principales tecnologías de traducción utilizadas en el sistema

El sistema se basa principalmente en tecnología de traducción estadística, que combina métodos de traducción basados ​​en plantillas y en memoria.

1. Traducción basada en estadísticas

La tecnología de traducción automática estadística es actualmente la tecnología de traducción automática líder en el mundo. Supera las principales deficiencias de los métodos tradicionales de traducción basados ​​en reglas. En los métodos tradicionales de traducción automática basados ​​en reglas, el conocimiento de la traducción se refleja principalmente en diccionarios y reglas, que están escritos principalmente por expertos humanos. El principal problema de este método es que el conocimiento del idioma escrito por parte de expertos humanos requiere mucha mano de obra, recursos materiales y tiempo; es difícil cubrir diversos problemas en entornos de traducción reales con conocimiento escrito; El conocimiento del lenguaje escrito no proporciona una buena solución cuando se enfrentan conflictos; el conocimiento del lenguaje escrito no es fácil de trasplantar a diferentes idiomas y campos. En la traducción automática estadística, todo el conocimiento de la traducción proviene de corpus paralelos reales, y el conocimiento de la traducción en corpus paralelos se aprende automáticamente a través del modelado estadístico, superando así los principales problemas que enfrentan los expertos humanos al compilar conocimiento. En resumen, la traducción automática estadística tiene las siguientes ventajas:

(1) Es fácil de trasplantar a diferentes campos del conocimiento. Siempre que se obtenga un corpus paralelo bilingüe en un nuevo campo, se podrá construir rápidamente un sistema de traducción adecuado para ese campo. Las patentes tienen un sistema de división de campos estandarizado y es fácil obtener textos de traducción de patentes en diferentes campos. Por lo tanto, esta característica de la traducción automática estadística es particularmente adecuada para los sistemas de traducción de patentes.

(2) Fácil de trasplantar a diferentes idiomas. La traducción automática estadística tiene la máxima independencia lingüística y requiere muy poco procesamiento del lenguaje para crear sistemas de traducción para nuevos pares de idiomas. Esto reduce significativamente los costos de desarrollo de sistemas para patentes que requieren traducción a varios idiomas.

(3) No es necesario escribir reglas manualmente. Todo el conocimiento de traducción se obtiene automáticamente a partir de corpus paralelos bilingües, lo que reduce en gran medida la mano de obra, los recursos materiales y el tiempo necesarios para el desarrollo del sistema. Los sistemas de traducción estadística se basan en modelos estadísticos, que también tienen soluciones razonables para superar conflictos de conocimiento.

(4) La calidad de la traducción del sistema puede mejorar gradualmente con el aumento de los datos de entrenamiento. Con el uso de sistemas de traducción patentados, se pueden generar cada vez más corpus paralelos bilingües, lo que puede mejorar aún más el rendimiento de traducción del sistema y mejorar la calidad de la traducción durante el uso.

En la implementación del sistema, los investigadores adoptaron un modelo de traducción automática estadística basado en frases. Este modelo utiliza frases como unidad de traducción básica, obtiene automáticamente todas las traducciones de frases del corpus bilingüe y al mismo tiempo obtiene la probabilidad de traducción entre frases, es decir, el modelo de traducción. Además, también obtenemos el modelo de la lengua de destino durante la fase de formación. Durante el proceso de traducción, el módulo de traducción selecciona la combinación de traducción de frase candidata más probable como resultado de la traducción de la oración completa a través de un determinado algoritmo de decodificación basado en el modelo de traducción y el modelo de lenguaje entrenados.

2. Traducción basada en plantillas

El método basado en plantillas facilita que el sistema traduzca oraciones con patrones similares. Los documentos de patente en campos específicos suelen contener algunos patrones de oraciones fijas. Por ejemplo, los siguientes son los títulos de varias patentes en el campo de la medicina tradicional china:

Una medicina tradicional china para el tratamiento de enfermedades cardíacas reumáticas

Una bolsa de medicamentos para el tratamiento de la hiperplasia ósea

Composición de medicina tradicional china sin azúcar con efecto calmante y su método de preparación

Un alimento saludable pastoso con efecto adelgazante y su método de preparación.

Se puede ver que estos títulos son muy similares en la estructura de la oración. Se pueden escribir usando dos plantillas: "A Y que trata a X" y "A Y con función X y su método de preparación" Generalización. En el sistema de traducción, una plantilla de traducción completa incluye "la parte de la plantilla en el idioma de origen" y "la parte de la plantilla en el idioma de destino", y cada parte se divide en "la parte constante de la plantilla" y "la parte variable de la plantilla".

Por ejemplo, las dos plantillas anteriores se representan en el sistema de traducción de la siguiente manera:

##2{…}para tratamiento##1{…}

= = & gt一# # 2 es tratar ##1

##2{…} con la función ##1{…} y su método de preparación

= = & gtUna especie de efecto #1 # 2 y su método de preparación

Donde "##N" es la parte variable de la plantilla y "N" se utiliza para distinguir la correspondencia entre diferentes variables en el idioma de destino. En "{...}" después de la variable, se le permite agregar algunas restricciones para limitar la coincidencia de la variable, como la longitud de la cadena coincidente, el método de coincidencia (coincidencia al principio de la cláusula o en al final de la cláusula), la variable debe contener o Palabras que no deben incluirse, etc., para aumentar la expresividad de la plantilla. Las plantillas aquí pueden coincidir con oraciones y cláusulas completas.

Después de hacer coincidir la plantilla, el ejemplo anterior se traduce a la siguiente forma:

Una medicina china para el tratamiento de la enfermedad cardíaca reumática

Una medicina china para el tratamiento de la bolsa de medicina proliferativa ósea

Una composición de medicina tradicional china sin azúcar con efecto calmante y su método de preparación

Un alimento saludable pastoso con efecto adelgazante y su método de preparación

Se puede ver que a través de la coincidencia de plantillas de patrones de oraciones, no solo se pueden traducir bien algunos patrones de oraciones fijas, sino que también se puede lograr una clasificación de oraciones a larga distancia, lo que compensa las deficiencias de las plantillas de frases. Los métodos de traducción estadísticos basados ​​en la clasificación a larga distancia son insuficientes. En segundo lugar, después de la coincidencia de la plantilla, algunas constantes en la plantilla se han traducido correctamente y el decodificador de traducción estadística solo necesita traducir los fragmentos de frase restantes, lo que puede reducir la carga del decodificador estadístico hasta cierto punto.

Las plantillas de oraciones definidas por este sistema son intuitivas y fáciles de entender para los trabajadores del lenguaje. Los usuarios pueden agregar plantillas de traducción de acuerdo con las características del patrón de oración del texto a traducir, lo que aumenta en gran medida la flexibilidad del sistema.

3. Traducción basada en memoria

Durante el proceso de uso del sistema, los usuarios pueden agregar por lotes oraciones traducidas correctamente a la memoria. Durante el proceso de traducción, si la misma frase existe en la memoria, el sistema puede buscar rápidamente su traducción correcta. Cuando el banco de memoria se acumula hasta una determinada escala, se puede agregar al corpus de entrenamiento para mejorar aún más la calidad de la traducción automática del sistema.

Además, el sistema de traducción también permite a los usuarios agregar diccionarios de traducción de dominio y diccionarios de traducción de usuarios según sea necesario, lo que mejora la capacidad de los usuarios para controlar el sistema.

La Figura 2 toma como ejemplo la traducción de texto chino y muestra el proceso de traducción principal del sistema. A partir de esto, los lectores pueden ver el papel y el estado de las técnicas de traducción anteriores en todo el proceso de traducción. Para un texto chino de entrada, primero se busca en la memoria de traducción a través del módulo de administración de memoria. Si el resultado de la traducción ya existe, se devuelve directamente, de lo contrario, el sistema llama a la herramienta de segmentación de palabras para realizar la segmentación de palabras en chino y postprocesar la palabra; resultados de la segmentación y luego llama al módulo de coincidencia de plantillas. El texto se somete a una coincidencia de plantillas y finalmente a una traducción basada en estadísticas. La traducción estadística requiere llamar a la biblioteca de modelos de traducción estadística, es decir, el modelo de traducción y el modelo de lenguaje.

Funciones principales y rendimiento del sistema

Los usuarios pueden abrir fácilmente archivos modificados a través de la interfaz de usuario proporcionada por el sistema y agregar dinámicamente términos de traducción y plantillas de traducción para guiar los resultados de la traducción. Al mismo tiempo, pueden buscar instantáneamente la palabra rara que se está modificando en el diccionario y agregar los resultados modificados correctos a la memoria en lotes. Mientras modifican, los usuarios aún pueden enviar tareas de traducción al servidor en lotes para ponerlas en cola. Una vez completada la traducción de la tarea, se le pedirá que descargue el archivo de resultados de la traducción. El diseño del sistema considera completamente la ejecución simultánea de tareas multiusuario y multitarea. Las tareas de traducción por lotes se procesan en segundo plano en el servidor y no afectan la ejecución de otras tareas que no son de traducción en el cliente.

1. Calidad de la traducción

El sistema se entrena utilizando 80.000 pares de frases en el campo de la medicina tradicional china (la longitud media de las frases es de 31 palabras) proporcionadas por Oriental Lingdun Technology Co. Limitado. La calidad de la traducción se evalúa utilizando el índice de evaluación Bleu aceptado internacionalmente y la herramienta de evaluación general MTeval-V11b.pl. En un conjunto de prueba de 200 oraciones fuera del corpus de entrenamiento, cuando solo hay una oración de respuesta de referencia estándar, el valor Bleu se traduce automáticamente. por el sistema es 0,3020.

Aquí hay una comparación con el último nivel de traducción automática internacional: en la evaluación de 2006 del conjunto de datos a gran escala de traducción automática chino-inglés del NIST de renombre internacional, el subconjunto del NIST (cada oración tiene cuatro respuestas de referencia ) es 0,3393 y la mejor puntuación para el subconjunto Gale Gale (cada oración tiene 1 respuesta de referencia) es 0,1470. Los datos de capacitación y los datos de prueba utilizados en la evaluación de traducción automática del NIST provienen del campo de las noticias, y la escala de los datos de capacitación es mucho mayor que los datos utilizados en este sistema de traducción de patentes. Aunque los dos no son directamente comparables, se puede ver que el nivel de traducción del sistema en el campo de las patentes ha alcanzado o incluso superado el nivel de traducción del mejor campo de noticias del mundo utilizando solo una pequeña cantidad de corpus de capacitación.

2. Velocidad de traducción

La velocidad de traducción se mide por el número de palabras traducidas por hora. La velocidad de traducción actual del sistema es de 6,5438+0,4 millones de palabras/hora. En promedio, cada título de patente tiene 20 palabras y cada resumen de patente tiene 200 palabras. El sistema puede traducir automáticamente 84.000 títulos u 8.400 resúmenes después de 12 horas de funcionamiento. Este tipo de velocidad de traducción puede satisfacer plenamente las necesidades del trabajo diario de traducción auxiliar.

En resumen, este sistema adopta tecnología de traducción estadística líder a nivel internacional, combinada con métodos de traducción basados ​​en plantillas y en memoria, para implementar un práctico sistema de traducción de documentos de patente chino-inglés. El sistema no sólo puede realizar la función de traducción automática, sino que también proporciona una conveniente función de traducción auxiliar. Los usuarios pueden modificar los resultados de la traducción automática, agregar dinámicamente diccionarios y plantillas para guiar la traducción y agregar resultados corregidos a la memoria en lotes. Actualmente, el sistema ha entrado en la etapa de prueba y la calidad y velocidad de la traducción han satisfecho las necesidades básicas de los usuarios.

(Los autores Fu Lei y He son estudiantes de posgrado en el Instituto de Tecnología Informática de la Academia de Ciencias de China)