Red de Respuestas Legales - Directorio de abogados - Extracción de información estructurada en páginas web

Extracción de información estructurada en páginas web

La extracción de información estructurada WEB consiste en extraer datos no estructurados de páginas web en datos estructurados de acuerdo con ciertos requisitos. Ésta es la mayor diferencia entre los motores de búsqueda verticales y los motores de búsqueda generales.

Por ejemplo: la búsqueda comparativa de compras requiere rastrear la página web, extraer información del producto de la página web, extraer el nombre del producto, el precio, la introducción... Incluso puedes subdividir aún más la introducción del cuaderno en "marcas". modelo, CPU, memoria, disco duro, pantalla,..."

La búsqueda de información inmobiliaria debe extraer: tipo, región, dirección, tipo de habitación, zona, estado de decoración, alquiler, persona de contacto, contacto Al buscar información comercial de una compañía telefónica, debe extraer: nombre de la empresa, dirección, número de teléfono y persona de contacto.

Hay dos formas de extraer información estructurada. La más simple es el método de plantilla y la otra es el método de extracción de información estructurada a nivel de biblioteca web que no depende de páginas web.

El método de plantilla consiste en configurar una plantilla para una página web específica de antemano y extraer la información requerida establecida en la plantilla, que puede recopilar información con precisión de un número limitado de sitios web.

Características: simple, preciso, de baja dificultad técnica, implementación cómoda y rápida.

Desventajas: la plantilla del sitio web debe configurarse por separado para cada fuente de información. Cuando las fuentes de información son diversas, la cantidad de mantenimiento es enorme e imposible de completar. Por lo tanto, este método es adecuado para el procesamiento de información de una pequeña cantidad de fuentes de información. No es una aplicación a nivel de motor de búsqueda y es difícil satisfacer la demanda de tasa de recuperación del usuario.

La extracción de información estructurada de la biblioteca de páginas web utiliza análisis de estructura de páginas y análisis de nodos inteligentes y métodos de conversión para extraer automáticamente datos estructurados.

Características: Puede extraer cualquier página web normal, de forma completamente automática. No es necesario generar plantillas para sitios web específicos por adelantado. Las reglas de extracción se generan automáticamente para cada página web en tiempo real, sin intervención manual. todo. La extracción inteligente tiene una alta precisión y no es una coincidencia mecánica. Utiliza tecnología de análisis inteligente y la precisión puede alcanzar más del 98%. Puede garantizar una velocidad de procesamiento más rápida. Debido a la tecnología de análisis inteligente de la página, primero se eliminan los bloques de basura, lo que reduce la presión del análisis y la velocidad de procesamiento mejora considerablemente. Tiene buena versatilidad y es fácil de mantener. Solo necesita establecer los parámetros y configurar las funciones correspondientes para mejorar el rendimiento de extracción correspondiente y los no profesionales pueden mantenerlo después de una simple capacitación.

Desventajas: alta dificultad técnica, altos costes iniciales de investigación y desarrollo y ciclo largo. Adecuado para aplicaciones de alto nivel de recopilación y búsqueda de datos estructurados a nivel de biblioteca web.