Pasos detallados del análisis de datos (1): recopilación de datos
1. Recopilación de datos
Ahora que ha llegado la era del big data, las empresas necesitan datos para analizar el comportamiento de los usuarios, analizar las deficiencias de sus propios productos y analizar la información de la competencia, y La primera y más importante de todas estas condiciones es la recopilación de datos. Los métodos de adquisición de datos comúnmente utilizados incluyen registros de operación y almacenamiento de datos, monitoreo y rastreo (es decir, rastreadores), llenado, enterramiento y cálculo.
1. Almacén de datos y registro de operaciones
El almacén de datos es un conjunto de datos compartidos organizados almacenados en una computadora durante mucho tiempo. Es una base de datos analítica que proporciona datos básicos para apoyar las decisiones. sistemas.
El almacén de datos tiene varias características definitorias, a saber:
Lectura recomendada: 1. Almacén de datos - Arte arquitectónico - Blog Garden
Las funciones de los registros y los almacenes de datos son las mismas, pero en comparación, los registros de registros son más concisos que los almacenes de datos y es más fácil localizar problemas cuando ocurren fallas.
2. Monitoreo y rastreo
El rastreador se refiere al proceso de escribir un programa para simular un navegador para acceder a Internet y luego permitirle acceder a Internet para capturar datos.
Según los escenarios de uso, los rastreadores web se pueden dividir en rastreadores generales y rastreadores de temas.
Los rastreadores universales son una parte importante del sistema de recuperación de los motores de búsqueda (Baidu, Google, etc.). ). El objetivo principal es descargar páginas web de Internet a la computadora local para formar una copia de seguridad espejo del contenido de Internet. En pocas palabras, significa descargar tantas páginas web como sea posible en Internet, colocarlas en el servidor local para formar un punto de respaldo, luego realizar el procesamiento relevante en estas páginas web (extraer palabras clave, eliminar anuncios) y finalmente proporcionar una Interfaz de búsqueda de usuarios.
Focused Crawler es un programa de rastreo web "orientado a necesidades temáticas específicas". La diferencia entre este y los rastreadores de motores de búsqueda generales es que los rastreadores enfocados procesan y filtran el contenido cuando rastrean páginas web, tratando de garantizar que solo se rastreen las páginas web relacionadas con las necesidades.
Lectura recomendada: Reptiles (Principios de reptiles y captura de datos)-lclc-Blog Garden
Reptiles-Z-J-H-Blog Garden
3. >
Ambos son registros del comportamiento del usuario.
Rellenar se refiere a que el usuario complete información o complete cuestionarios relevantes al registrarse. Los datos obtenidos a través de cuestionarios y encuestas por muestreo son limitados y, en ocasiones, no se puede garantizar su autenticidad.
El seguimiento se refiere principalmente al enterramiento de aplicaciones o páginas web, y al seguimiento del uso de aplicaciones o páginas web para su optimización. Por lo general, se registran estadísticas de la página y comportamientos operativos, como visitantes, visitas a la página y tasas de rebote. ). Registra directamente el proceso de interacción entre los usuarios y los productos online, casi reproducible, obteniendo así patrones de comportamiento de los usuarios, registros de compra, hábitos de búsqueda, etc. Estos datos son generados por los propios usuarios, lo que garantiza la autenticidad de los datos.
Lectura recomendada: 6 pasos: Aprende a enterrar datos rápidamente.
Cálculo
Muchos datos no se pueden obtener directamente y deben inferirse de los datos existentes. Por ejemplo, la relación insumo-producto de una empresa.
Finalmente, es necesario enfatizar que los datos utilizados para el análisis de datos deben ser verdaderos, precisos y oportunos. Al utilizar información personal después de obtener los datos, se deben observar los siguientes cinco principios:
(1) El principio de divulgación legal.
(2) Principio de limitación de finalidad.
(3) Principio de datos mínimos.
(4) Principios de seguridad de los datos.
(5) Principio de almacenamiento limitado.
El próximo artículo brindará una breve descripción general del preprocesamiento de datos en el análisis de datos.