Red de Respuestas Legales - Derecho de propiedad intelectual - Aplicación del PDF de doble capa en la digitalización de datos geológicos

Aplicación del PDF de doble capa en la digitalización de datos geológicos

Guo Huijin, Jia Guofeng, Ma Feifei, Zhang Qian

(Archivo Geológico Nacional)

Resumen Este artículo analiza las características y perspectivas de aplicación de la doble capa. Se propone la importancia de la conversión PDF de doble capa de datos gráficos y de texto digitales de datos geológicos, se propone la selección de métodos de conversión y se presenta en detalle el sistema de procesamiento digital OCR, así como los métodos para mejorar. la tasa de reconocimiento; finalmente, se propone la importancia de la aplicación de PDF de doble capa en la construcción de bibliotecas de información geológica.

Palabras clave Tasa de reconocimiento OCR de PDF de doble capa

Actualmente, las instituciones de recopilación de datos geológicos están intensificando su trabajo de digitalización. A finales de 2013, más de 20 bibliotecas provinciales de todo el país habían completado la digitalización de sus colecciones. La digitalización de datos geológicos en las bibliotecas geológicas nacionales también está a punto de completarse. Los datos masivos resultantes se han convertido en datos importantes para los servicios geológicos socializados. recurso de información de datos. Este tipo de datos digitales es estático, lo que resulta cómodo de leer y utilizar, pero no se puede recuperar en texto completo y no favorece un análisis y procesamiento posteriores. Por lo tanto, sobre la base de los datos existentes, se lleva a cabo el reconocimiento OCR para convertirlos en archivos PDF dobles, realizar la transformación de estático a dinámico, establecer una base de datos de texto completo y completar la recuperación de la información de texto completo de los datos geológicos. Y convertirse en los datos de promoción de las instituciones de recopilación de datos geológicos.

1 Acerca de la tecnología PDF de doble capa y OCR

PDF de doble capa es un archivo PDF con capacidad de búsqueda generado mediante reconocimiento OCR basado en datos escaneados, es decir, la capa superior es el original. imagen, y la capa inferior es el resultado del reconocimiento, y la posición corresponde a la siguiente. Los archivos PDF de doble capa no solo pueden conservar el 100% del efecto de diseño original, sino que también admiten funciones como selección, copia y recuperación. Dichos archivos PDF finalmente pueden almacenarse en CD, discos duros o matrices de discos y administrarse científicamente. mediante el establecimiento de una base de datos indexada.

OCR (Reconocimiento óptico de caracteres), o reconocimiento óptico de caracteres, se refiere a un dispositivo electrónico (como un escáner o una cámara digital) que verifica los caracteres impresos en papel, determinando su forma detectando patrones oscuros y claros. y luego, el proceso de traducir formas a texto de computadora utilizando métodos de reconocimiento de caracteres. Es decir, el proceso de escanear datos de texto y luego analizar y procesar archivos de imagen para obtener información de texto y diseño. Con el rápido desarrollo de las redes informáticas, la electrónica de la información se ha convertido en una tendencia inevitable de la época. El texto es el portador de información más importante y concentrado, y su proceso electrónico es particularmente importante. La tecnología OCR es el eslabón más importante en el proceso de texto electrónico. Ha cambiado el concepto tradicional de entrada de datos en papel. A través de la tecnología OCR, los usuarios pueden convertir información de imágenes de periódicos, libros, manuscritos, formularios y otros materiales impresos obtenidos mediante métodos de entrada óptica, como cámaras y escáneres, en información de texto que puede ser reconocida y procesada por computadoras. Por lo tanto, en comparación con los métodos tradicionales de entrada manual, la tecnología OCR ha mejorado enormemente la eficiencia del almacenamiento, recuperación y procesamiento de datos de las personas.

2 Estado de la solicitud

El PDF se utiliza ampliamente en gobiernos, finanzas, derecho, tecnología de ingeniería, departamentos médicos y otros de todo el mundo, y se ha convertido en un estándar para gobiernos y departamentos académicos. y otras unidades El estándar moderno de formato de documentos oficiales, por lo que los documentos en formato electrónico PDF serán el cuerpo principal de la colección del departamento de archivos en el futuro. La aparición del PDF de doble capa resuelve eficazmente la contradicción entre el costo de identificación y la utilización de la lectura, y es un formato de recurso con gran potencial. La aplicación de la tecnología OCR en el extranjero está relativamente madura y las principales empresas mundiales, incluidas IBM, Motorola, HP y Microsoft, han iniciado sucesivamente investigaciones en esta área e incorporado la tecnología OCR en sus productos.

Hoy en día, la tecnología OCR también es muy utilizada en nuestro país. Investigación de tecnología de recuperación de información, es decir, investigación de tecnología de recuperación de PDF de doble capa, el plan "863" de China había comenzado a realizar pruebas y evaluaciones unificadas de OCR chino, segmentación automática de palabras, resumen automático, búsqueda automática y posicionamiento automático antes de 2008. Sobre esta base, en China se han ido estableciendo gradualmente una serie de casos de implementación digital basados ​​en bibliotecas digitales, archivos digitales, diarios y publicaciones periódicas digitales, redes de campus digitales, etc., como la Administración General de Prensa y Publicaciones, el Departamento de Asuntos Externos Relaciones y el Comité Central de la Liga Nacional Juvenil Bases de datos de texto completo de documentos de otras instituciones; bases de datos de texto completo de publicaciones periódicas como "China Youth" de 1975 y "Xinhua Digest" de 20 años. Ya en 1999, la Biblioteca Nacional creó el "Centro de Digitalización de Documentos de la Biblioteca Nacional" para llevar a cabo el procesamiento digital y el reconocimiento OCR de diversas colecciones de documentos. Sobre esta base, formó tres bases de datos principales: biblioteca bibliográfica, base de datos bibliográfica y texto completo. categoría de base de datos, convirtiéndose gradualmente en el centro central de los recursos de información en línea de mi país.

Con la popularización integral de la construcción de informatización en nuestro país, las perspectivas de aplicación de la tecnología OCR son más amplias. La introducción de conceptos como bibliotecas digitales, archivos digitales y bibliotecas digitales también ha hecho que el OCR sea cada vez más importante. En el proceso de digitalización de archivos en papel, cuanto más desempeñe su papel único, no sólo ahorrará mano de obra y recursos materiales, sino que también maximizará el valor de utilización de los recursos de información de los archivos y servirá mejor a las personas.

3 La importancia de la conversión de datos digitales a PDF de doble capa

3.1 es una parte importante de la construcción de información de datos geológicos

Con la mejora de las redes sociales informatización, personas La dependencia de los recursos de información también está aumentando y la necesidad de una gestión, recuperación y utilización eficiente de los recursos de archivo es cada vez más urgente.

La digitalización es una parte importante de la construcción de información, y el núcleo de la construcción de información es la construcción de recursos. La construcción de recursos incluye tres tareas principales: primero, el escaneo y digitalización de colecciones en papel y la construcción de bases de datos de catálogos; la segunda, el archivo y gestión de archivos electrónicos y la tercera, la construcción de bases de datos de texto completo y la recuperación de texto completo; sistemas. De acuerdo con el progreso del trabajo de digitalización en varias bibliotecas y considerando las necesidades de utilización de los usuarios, si queremos obtener información electrónica en forma de texto real, hacer que la digitalización de datos funcione de manera más efectiva y exhaustiva y maximizar el área de utilización del usuario, Es necesario aplicar la tecnología OCR para escanear rásteres y convertir archivos de cuadrícula en PDF de doble capa, y luego llevar a cabo la construcción de una base de datos de texto completo y la recuperación de datos geológicos en texto completo.

3.2 es el requisito previo para la recuperación de texto completo y la construcción de bases de datos de datos geológicos de texto completo.

La práctica ha demostrado que la recuperación de texto completo basada en documentos PDF de doble capa mejora eficazmente las consultas. eficiencia de utilización. Indexa los datos en la base de datos de archivo y la capa de texto del documento PDF de doble capa, de modo que se puede consultar la base de datos sin acceder a la base de datos, lo que reduce efectivamente la presión sobre la base de datos y el sistema. Puede admitir al menos 10 millones de niveles de datos, tiempos de consulta de milisegundos y acceso simultáneo de miles de personas por segundo, logrando así los objetivos de gran capacidad y alta velocidad. Puede adaptarse a plataformas Linux y Windows y admite un. variedad de interfaces de bases de datos. Tiene la estructura y funciones de un motor de búsqueda general. Puede segmentar la entrada del usuario, realizar búsquedas de múltiples palabras clave y búsquedas combinadas de palabras clave, y es fácil de usar. Al mismo tiempo, puede realizar la extracción de datos del usuario de acuerdo con las necesidades del cliente. mejorar el valor del sistema de recuperación de texto completo de archivos.

3.3 es el requisito previo para la construcción estandarizada de centros de datos modernos

Para construir un centro de datos moderno, primero debemos estandarizar la estructura de almacenamiento de archivos electrónicos, es decir, establecer un sistema altamente versátil. y formatos de almacenamiento e intercambio de información de archivos electrónicos ampliamente utilizados. El formato PDF se ha implementado plenamente a nivel internacional como el último estándar para el almacenamiento a largo plazo de archivos electrónicos en la gestión de archivos electrónicos. Tiene las ventajas de compatibilidad, capacidad de grabación original sólida y estrategias completas de control de seguridad. almacenamiento a plazo de archivos electrónicos. Por lo tanto, es imperativo convertir los datos de la colección digital a PDF.

4 Métodos de conversión de PDF de doble capa

4.1 Métodos de conversión de PDF de doble capa actualmente comunes

En la actualidad, la tecnología nacional de conversión de PDF de doble capa se ha relativamente maduro Desde un punto de vista técnico, se puede dividir aproximadamente en los siguientes tres tipos:

4.1.1 Conversión de software

De los más populares Adobe Acrobat y ABBYY FineReader12 (. reconocimiento de chino e inglés) actualmente en el mercado, Readiris Corporate 12 (alta tasa de reconocimiento de inglés), Foxit Phantom 5 (puede mostrar la capa de texto por separado), Tsinghua Wentong TH-OCR XP8 (alta tasa de reconocimiento), Hanwang TextKing 5800 (buen reconocimiento de diseño , alta tasa de reconocimiento de chino puro) ), Shangshu No. 7 OCR y otros programas de conversión pueden generar directamente archivos PDF de doble capa después del reconocimiento y procesamiento de OCR, lo cual es rápido y eficiente. Sin embargo, la tasa de reconocimiento es directamente proporcional a los datos del papel original (como el método de impresión, claridad, calidad del papel, etc.) y el nivel técnico del operador. Si la calidad del original en papel es buena, la tasa de reconocimiento será relativamente alta; si la calidad es mala, la tasa de reconocimiento será relativamente baja.

4.1.2 Procesamiento del proceso

De acuerdo con los requisitos técnicos pertinentes, la imagen se procesa con un nuevo proceso de reconocimiento OCR y el archivo PDF se regenera, con alta precisión de texto y posicionamiento preciso del texto. . Características. Este método equivale a la producción completa de archivos PDF de doble capa, lo que requiere una gran carga de trabajo, lleva mucho tiempo y es costoso.

4.1.3 Reconocimiento y reconstrucción

Regenerar archivos PDF para restaurar y reconstruir fuentes de diseño, tamaños de fuente y colores. El texto tiene una alta tasa de precisión y la página es clara, pero es bastante diferente de la imagen original. Se utiliza principalmente en libros.

4.2 Conversión de datos geológicos a PDF de doble capa

El Museo Nacional comenzó a llevar a cabo experimentos de conversión de PDF de doble capa sobre la base de la digitalización por escaneo en 2011, utilizando principalmente el primer método. para conversión de software, es decir, se forma directamente un archivo PDF de doble capa después del procesamiento OCR automático por parte del software. Debido a que los datos geológicos son diferentes de los archivos de documentos ordinarios, con varios estilos de papel y métodos de impresión, muchos datos antiguos y escritos a mano y muchos símbolos especiales como estratigrafía y matemáticas, el reconocimiento automático de OCR presenta dificultades que no pueden satisfacer el texto completo. la recuperación requiere una tasa de reconocimiento de más del 90%.

Basándonos en la prueba de conversión, llegamos a las siguientes conclusiones:

1) Los datos geológicos en sí son diversos y la tasa de reconocimiento real se ve afectada principalmente por factores como la calidad de impresión. y la tasa de reconocimiento de materiales con mala calidad del papel generalmente se ve afectada por los hábitos de escritura y la claridad de la escritura del escritor, la precisión del reconocimiento de los documentos escritos a mano es generalmente inferior al 30% y la precisión del reconocimiento de los documentos mimeografiados; menos del 50%; la impresión, los documentos impresos con plomo y en offset tienen una alta tasa de reconocimiento, que generalmente alcanza más del 90%. Independientemente del tipo de documento, la tasa de reconocimiento de puntuación es muy baja y la tasa de reconocimiento de símbolos estratigráficos y matemáticos y otros símbolos especiales es casi nula.

2) La tecnología de reconocimiento actual no puede lograr un reconocimiento del 100%. Los resultados del reconocimiento inicial deben revisarse manualmente con archivos en papel de acuerdo con las necesidades reales para satisfacer las necesidades de recuperación de texto completo.

3) Los archivos de escaneo de datos geológicos son grandes en cantidad y capacidad, y la velocidad de conversión se ve afectada por la velocidad de respuesta de la computadora. Se requieren computadoras de alta configuración para la conversión e identificación a gran escala, y para la conversión y conversión por lotes. La identificación manual requiere mucho tiempo y trabajo, se necesitan fondos especiales para respaldar el trabajo.

4.3 Introducción e introducción de funciones del sistema de procesamiento digital OCR

Después de comparar los métodos nacionales actuales de conversión de PDF de doble capa, combinados con las complejas características de los datos geológicos y la investigación sobre pruebas de datos Resultados. Se recomienda que la conversión de datos geológicos a PDF de doble capa adopte principalmente un método que combine el reconocimiento de software y el procesamiento de procesos, es decir, el uso de un sistema de procesamiento digital OCR, que puede garantizar una doble capa de alta eficiencia y alta calidad. Conversión de PDF. El sistema incluye principalmente los siguientes procesos principales:

Figura 1 Diagrama esquemático del sistema de procesamiento digital OCR

1) Procesamiento de imágenes. Para mejorar la tasa de reconocimiento, la imagen se somete a un procesamiento de "descontaminación azul" para eliminar el ruido en la imagen que afecta la tasa de reconocimiento, como picaduras, subrayados, etc., y la imagen monitorea automáticamente la calidad del procesamiento de la imagen. programa de control de calidad.

2) Análisis de trazado. Comprenda y coloque automáticamente el diseño, determine si el área enmarcada es un área de texto horizontal, un área de texto vertical, un área de tabla o un área de imagen, y marque áreas con diferentes atributos con estructuras alámbricas de diferentes colores. El análisis de diseño automático se ejecuta en segundo plano y los operadores pueden confirmarlo en la recepción y agregar intervención manual a los resultados del análisis de diseño automático cuando sea necesario.

3) Identificación. Convierta imágenes de texto en códigos internos de texto de computadora, que pueden reconocer chino impreso y escrito a mano (incluidos caracteres chinos simplificados y tradicionales), texto mixto en chino e inglés y tablas. Los códigos internos de texto reconocidos pueden ser códigos GB, códigos BIG5, códigos GBK. o código Unicode. El proceso de identificación se ejecuta en segundo plano.

4) Corrección vertical. Tiene sólidas capacidades de verificación y corrección de errores. Enumera imágenes de texto reconocidas como la misma palabra en una o varias imágenes y las muestra juntas, y marca las palabras sospechosas en un color destacado para facilitar al operador encontrar errores y modificarlos.

5) Corrección horizontal. Es un método de revisión manual tradicional. El operador compara directamente el texto del resultado del reconocimiento y la imagen para encontrar el texto del error de reconocimiento. El sistema llama automáticamente la imagen correspondiente al texto para comparar. Al mismo tiempo, el texto indispensable para identificar la credibilidad está marcado con colores llamativos.

6) Restauración del diseño. Restaure el texto reconocido y modificado en un documento digital en formato RTF, PDF, HTML, SGML/XML que tenga el mismo diseño que el documento escaneado y pueda leerse y recuperarse mediante una computadora.

7) Almacenamiento de datos. Maquetación, restauración y conservación de documentos digitales.

4.4 Métodos para mejorar la tasa de reconocimiento de OCR

Utilizando el PDF de doble capa generado por el sistema de procesamiento digital OCR, la tasa de error de la capa de texto puede ser tan baja como uno en 10.000 y se puede mostrar el sombreado original y el estilo de color, se pueden realizar búsquedas de texto completo y copiar citas, y la información de búsqueda se puede ubicar con precisión en los caracteres, lo que facilita la búsqueda rápida de la información de destino. Para reducir la carga de trabajo de la revisión horizontal, es decir, la revisión manual, y mejorar la eficiencia del trabajo, es necesario mejorar fundamentalmente la tasa de reconocimiento. Después de las pruebas, los siguientes métodos pueden mejorar la tasa de reconocimiento OCR de archivos ráster.

1) Configuración de color de imagen. Aunque la escala de grises o el modo de color pueden restaurar en gran medida la apariencia original de los materiales en papel y son nuestra primera opción para escanear y digitalizar, estos dos modos de color aumentarán el ruido de fondo que afecta la tasa de reconocimiento. Si solo está realizando reconocimiento de texto y selección general de ilustraciones en blanco y negro, se recomienda establecer la configuración de color de la imagen del programa de escaneo en blanco y negro para aumentar la tasa de reconocimiento. Sin embargo, la configuración final del color de la imagen debe establecerse de acuerdo con los requisitos de especificación de varias tareas específicas.

2) Configuración de resolución. Todos sabemos que cuanto menor sea la configuración de resolución de escaneo, más rápida será la velocidad de escaneo, pero también da como resultado una calidad de imagen deficiente y una precisión de reconocimiento de texto baja. Por el contrario, la resolución es alta, la velocidad de escaneo es lenta, pero la precisión del reconocimiento de texto es alta. Pero esto no es absoluto, porque si la resolución se establece demasiado alta, los pequeños defectos en el papel pueden reconocerse como signos de puntuación o caracteres chinos, y se reducirá la precisión del reconocimiento del texto. Después de repetidas pruebas, la resolución se configuró en 300 ppp, que es el mejor equilibrio entre la velocidad de escaneo y la precisión del reconocimiento de texto.

3) Procesamiento de imágenes. El procesamiento de imágenes aquí se refiere a la corrección de la inclinación y la descontaminación antes de escanear la imagen de salida. La corrección de inclinación consiste en ajustar la dirección del texto para que sea positivo, de modo que pueda ser útil para el reconocimiento OCR.

Una vez completada la conversión de PDF de doble capa, sobre esta base, el sistema de gestión de datos se puede conectar al archivo PDF, y el contenido de los datos, los metadatos y otra información relacionada se pueden conectar y formar en un paquete de datos; y luego Llame a los datos originales de la base de datos de texto completo para crear un archivo de índice y finalmente implemente la recuperación de texto completo. Mediante la realización de bases de datos de texto completo y la recuperación de texto completo, se logran altas tasas de recuperación y precisión, lo que mejora en gran medida el valor de utilización de los datos geológicos, promueve la compilación e investigación de datos geológicos y sienta las bases para la investigación y los servicios en profundidad. sobre agregación de información de datos geológicos.

Referencias

[1]Xu Chengchen. Aplicación de la tecnología OCR en el proceso de digitalización de archivos[J]. [2] Xu Yongfang. Aplicación de la tecnología OCR en el proceso de digitalización de archivos [J]. Arte, ciencia y tecnología, 2011(2).

[3] Progreso y perspectivas de la investigación sobre la tecnología OCR [. J]. Ciencia y Tecnología, 2010(4).

[4] Guo Jinguang. Tecnología PDF de doble capa y su aplicación en la digitalización de archivos[J]. p>

[ 5] Liu Jiazhen. Formato de conservación de archivos y documento PDF[J]. Archival Science Research, 2002(2).