Red de Respuestas Legales - Derecho de bienes - Cómo recopilar big data

Cómo recopilar big data

1. Recopilación fuera de línea: Herramienta: ETL; en el contexto del almacén de datos, ETL es básicamente el representante de la recopilación de datos, incluida la extracción (Extract), la transformación (Transform) y la carga (Load) de datos. Durante el proceso de conversión, los datos deben gestionarse de acuerdo con escenarios comerciales específicos, como monitoreo y filtrado de datos ilegales, conversión de formato y estandarización de datos, reemplazo de datos, garantía de la integridad de los datos, etc. 2. Recopilación en tiempo real: Herramienta: Flume/Kafka; la recopilación en tiempo real se utiliza principalmente en escenarios comerciales que consideran el procesamiento de flujo, por ejemplo, para registrar diversas actividades operativas realizadas por fuentes de datos, como la gestión del tráfico de la red. Monitoreo y registro de acciones para aplicaciones financieras. Comportamiento de acceso del usuario registrado por la cuenta y el servidor web. En un escenario de procesamiento de flujo, la recopilación de datos se convertirá en un consumidor de Kafka, que es como una presa que intercepta los datos continuos del flujo ascendente y luego realiza el procesamiento correspondiente de acuerdo con el escenario comercial (como deduplicación, eliminación de ruido, cálculo intermedio, etc.). .), y luego escríbalo en el almacenamiento de datos correspondiente. Este proceso es similar al ETL tradicional, pero es un método de procesamiento de transmisión en lugar de un trabajo de procesamiento por lotes programado. Estas herramientas adoptan una arquitectura distribuida y pueden cumplir con los requisitos de recopilación y transmisión de datos de registros de cientos de MB por segundo. : Herramientas: Crawler, DPI, etc.; Scribe es un sistema de recopilación de datos (registros) desarrollado por Facebook. También conocido como araña web, el robot web es un programa o script que captura automáticamente información de la World Wide Web de acuerdo con ciertas reglas. Admite la recopilación de imágenes, audio, video y otros archivos o archivos adjuntos.