¿Cuáles son los procesos para los métodos de recopilación de big data?
¿Cuál es el método de recopilación de big data? 1. Recopilación sin conexión:
Herramienta: ETL. En el contexto del almacenamiento de datos, ETL básicamente representa la recopilación de datos, incluida la extracción, transformación y carga de datos. Durante el proceso de conversión, los datos deben gestionarse de acuerdo con escenarios comerciales específicos, como monitorear y filtrar datos ilegales, conversión de formato y estandarización de datos, reemplazo de datos, garantizar la integridad de los datos, etc.
2. Recopilación en tiempo real:
Herramientas: Flume/Kafka. La recopilación en tiempo real se utiliza principalmente en escenarios comerciales que consideran el procesamiento de flujo. Por ejemplo, se utiliza para registrar diversas actividades operativas de fuentes de datos, como la gestión del tráfico para el monitoreo de la red, la contabilidad de existencias para aplicaciones financieras y los comportamientos de acceso de los usuarios registrados por. servidores web. En un escenario de procesamiento de flujo, la recopilación de datos se convertirá en un consumidor de Kafka, al igual que una presa que intercepta datos continuos del flujo ascendente y luego realiza el procesamiento correspondiente (como deduplicación, eliminación de ruido, cálculo intermedio, etc.) según el escenario empresarial. luego escriba en el almacén de datos correspondiente.
Este proceso es similar al ETL tradicional, pero es un modo de procesamiento de flujo en lugar de un trabajo por lotes programado. Todas estas herramientas adoptan una arquitectura distribuida y pueden cumplir con los requisitos de recopilación y transmisión de datos de registro de cientos de MB por segundo.
3. Colección de Internet:
Herramientas: rastreadores, DPI, etc. Scribe es un sistema de recopilación de datos (registros) desarrollado por Facebook. También conocido como arañas web y robots web, es un programa o script que captura automáticamente información de la World Wide Web de acuerdo con ciertas reglas. Admite la recopilación de imágenes, audio, video y otros archivos o archivos adjuntos.
¿Cuál es el proceso de recopilación de big data? El proceso de recopilación y procesamiento de big data incluye principalmente la recopilación de datos, el preprocesamiento de datos, el almacenamiento de datos, el procesamiento y el análisis de datos. La calidad de los datos recorre todo el proceso de big data y es muy crítica. Cada enlace de procesamiento de datos tendrá un impacto en la calidad del big data. Primero hablemos del proceso y los métodos de procesamiento de la recopilación de datos de big data.
Recopilación de datos de big data En el proceso de recopilación de datos, la fuente de datos afectará la autenticidad, integridad, coherencia, precisión y seguridad de la calidad de los big data.
Preprocesamiento de datos Generalmente hay una o más fuentes de datos en el proceso de recopilación de big data, incluidas bases de datos homogéneas o heterogéneas, sistemas de archivos, interfaces de servicios, etc. , susceptible a datos de ruido, valores de datos faltantes, conflictos de datos, etc. Por lo tanto, los conjuntos de big data recopilados deben preprocesarse primero para garantizar la precisión y el valor del análisis de big data y los resultados de predicción.