Cómo convertirse rápidamente en analista de datos
Antes de aprender a ser analista de datos debes saber qué quieres conseguir. En otras palabras, ¿qué problema o programa estás intentando resolver con esta tecnología? Con este objetivo en mente, podrás formular claramente tu propio plan de estudio y aclarar tu sistema de conocimientos. Sólo aclarando la orientación de los objetivos y aprendiendo las partes más útiles podemos evitar información no válida y reducir la eficiencia del aprendizaje.
1. Definir el marco de conocimiento y la ruta de aprendizaje.
Análisis de datos, si quieres ser analista de datos, entonces puedes ingresar al sitio web de reclutamiento para ver cuáles son los requisitos para el puesto correspondiente. En términos generales, tendrá una comprensión preliminar de la estructura de conocimientos que debe dominar. Puede consultar el puesto de analista de datos. La demanda de habilidades de la empresa se puede resumir de la siguiente manera:
Operaciones básicas de bases de datos SQL, gestión básica de datos;
Poder utilizar Excel/SQL para extraer, analizar y mostrar datos básicos. ;
p>
Poder utilizar lenguaje de script para análisis de datos, Python o R;;
Aumento de la capacidad de obtener datos externos, como rastreadores o familiaridad con el público. conjuntos de datos;
Tener habilidades básicas de visualización de datos y la capacidad de escribir informes de datos;
Estar familiarizado con los algoritmos de minería de datos de uso común: análisis de regresión, árboles de decisión, clasificación y métodos de agrupamiento. ;
¿Qué es un enfoque de aprendizaje eficiente? Es el proceso de análisis de datos. Generalmente, el viaje de aprendizaje de un analista de datos se puede realizar a través de los pasos de "recopilación de datos - almacenamiento y extracción de datos - preprocesamiento de datos - modelado y análisis de datos - visualización de datos". Siga este orden paso a paso y sabrá qué debe completarse en cada parte, qué conocimientos debe aprender y qué conocimientos no son necesarios por el momento. Luego, cada vez que estudies una parte, obtendrás resultados reales, comentarios positivos y una sensación de logro, y estarás dispuesto a dedicar más tiempo a ello. Con el objetivo de resolver problemas, la eficiencia, naturalmente, no será baja.
Según el proceso anterior, nos dividimos en dos categorías: analistas que necesitan obtener datos externos y analistas que no necesitan obtener datos externos. La ruta de aprendizaje se resume a continuación:
1. Necesita analista de datos externos:
Conceptos básicos de Python
Reptiles de Python
Lenguaje SQL
Paquetes de computación científica de Python: pandas , numpy, scipy, scikit-learn.
Estadística básica
Método de análisis de regresión
Algoritmos básicos de minería de datos: clasificación y agrupamiento
Optimización del modelo: extracción de características
p>Visualización de datos: seaborn, matplotlib
2 Analistas que no necesitan obtener datos externos:
Lenguaje SQL
Conceptos básicos de Python<. /p >
Paquetes de computación científica Python: pandas, numpy, scipy, scikit-learn.
Estadística básica
Método de análisis de regresión
Algoritmos básicos de minería de datos: clasificación y agrupamiento
Optimización del modelo: extracción de características
p>Visualización de datos: seaborn, matplotlib
A continuación, hablemos de qué y cómo aprender cada parte.
Recopilación de datos: datos abiertos, rastreador de Python
Si solo toca los datos en la base de datos empresarial y no necesita obtener datos externos, esta parte se puede ignorar.
Existen dos formas principales de obtener datos externos.
El primero es obtener conjuntos de datos públicos externos. Algunas instituciones de investigación científica, empresas y gobiernos abrirán algunos datos y usted deberá ir a sitios web específicos para descargarlos. Estos conjuntos de datos suelen ser relativamente completos y de calidad relativamente alta.
Otra forma de obtener datos externos es a través de rastreadores.
Por ejemplo, puede utilizar rastreadores para obtener información de contratación para un determinado puesto en un sitio web de contratación, información de alquiler para una determinada ciudad en un sitio web de alquiler, una lista de películas con las calificaciones más altas en Douban, un lista de me gusta en Zhihu y una lista de reseñas de música de NetEase Cloud. A partir de los datos capturados de Internet se puede analizar una determinada industria y un determinado grupo de personas.
Antes de rastrear, es necesario tener algunos conocimientos básicos de Python: elementos (listas, diccionarios, tuplas, etc.), variables, bucles, funciones (el tutorial para principiantes vinculado es muy bueno)...y cómo utilizar bibliotecas maduras de Python (URL, BeautifulSoup, solicitudes, scrapy) para implementar un rastreador web. Si es principiante, se recomienda comenzar con urllib y BeautifulSoup. (PD: el análisis de datos de seguimiento también requiere conocimientos de Python. Los problemas encontrados en el futuro también se pueden ver en este tutorial)
No tenga demasiados tutoriales de rastreadores en línea. El rastreador puede recomendar páginas web de Douban. gatear. Por un lado, la estructura de la página web es relativamente simple y, por otro lado, Douban es relativamente amigable para los rastreadores.
Después de dominar el rastreador básico, aún necesita algunas habilidades avanzadas, como expresiones regulares, inicio de sesión de usuario simulado, uso de agentes, configuración de la frecuencia de rastreo, uso de información de cookies, etc. , para hacer frente a las restricciones anti-rastreadores de diferentes sitios web.
Además, los datos de sitios web de comercio electrónico, sitios web de preguntas y respuestas, sitios web de reseñas, sitios web de transacciones de segunda mano, sitios web de citas y sitios web de contratación de uso común son métodos de buenas prácticas. Estos sitios web pueden obtener datos muy analíticos y lo más importante es que hay muchos códigos maduros como referencia.
Acceso a datos: lenguaje SQL
Quizás tengas dudas sobre por qué no se enseña Excel. Al procesar datos dentro de 10.000, Excel generalmente no tiene problemas para analizarlos. Una vez que la cantidad de datos sea grande, será insuficiente y la base de datos puede resolver este problema muy bien. Además, la mayoría de las empresas almacenan datos en forma de SQL. Si es analista, también necesita comprender el funcionamiento de SQL y poder consultar y extraer datos.
SQL, como herramienta de base de datos más clásica, permite almacenar y gestionar datos masivos, mejorando enormemente la eficiencia de la extracción de datos. Debe dominar las siguientes habilidades:
Extraer datos en circunstancias específicas: los datos de la base de datos empresarial deben ser grandes y complejos, y debe extraer las partes que necesita. Por ejemplo, puedes extraer todos los datos de ventas de 2018, datos de los 50 productos más vendidos este año, datos de consumo de los usuarios en Shanghai y Guangdong según tus necesidades... SQL puede ayudarte a completar estas tareas con comandos simples.
Agregar, eliminar, consultar y modificar la base de datos: estas son las operaciones más básicas de la base de datos, pero se pueden lograr con comandos simples, por lo que solo necesitas recordar los comandos.
Agrupación y agregación de datos, cómo establecer relaciones entre múltiples tablas: esta parte es una operación avanzada de SQL. La relación entre múltiples tablas es muy útil cuando se trata de conjuntos de datos multidimensionales. También le permite manejar datos más complejos.
Preprocesamiento de datos: Python (Panda)
Muchas veces, los datos que obtenemos no están limpios, con datos duplicados, faltantes, atípicos, etc. En este momento, es necesario limpiar los datos y procesar los datos que afectan el análisis para obtener resultados de análisis más precisos.
Por ejemplo, los datos de calidad del aire, muchos días de datos no fueron monitoreados debido a problemas con el equipo, algunos datos se registraron repetidamente y algunos datos no fueron válidos cuando el equipo falló. Por ejemplo, hay muchas operaciones no válidas en los datos de comportamiento del usuario que no tienen sentido para el análisis y deben eliminarse.
Luego debemos usar los métodos correspondientes para manejarlos, como datos incompletos, ¿deberíamos eliminar los datos directamente o usar valores adyacentes para completarlos? Todas estas son cuestiones a considerar.
Para el preprocesamiento de datos, aprenda a utilizar pandas y a manejar la limpieza general de datos. Los puntos de conocimiento que deben dominarse son los siguientes:
Selección: acceso a datos (etiquetas, valores específicos, índices booleanos, etc.)
Procesamiento de valores faltantes: eliminar o completar los faltantes filas de datos.
Procesamiento de valores duplicados: juicio y eliminación de valores duplicados
Procesamiento de espacios y valores anormales: elimina espacios innecesarios y datos anormales extremos.
Operaciones relacionadas: estadísticas descriptivas, aplicaciones, histogramas, etc.
Fusionar: operación de fusión que se ajusta a varias relaciones lógicas.
Agrupación: división de datos, ejecución separada de funciones y reorganización de datos.
Actualizar: Genera rápidamente tablas dinámicas
Teoría de la probabilidad y conocimientos estadísticos
¿Cuál es la distribución general de los datos? ¿Qué son una población y una muestra? ¿Cómo aplicar estadísticas básicas como mediana, moda, media y varianza? Si existe una dimensión temporal, ¿cómo cambia con el tiempo? ¿Cómo hacer pruebas de hipótesis en diferentes escenarios? La mayoría de los métodos de análisis de datos provienen de conceptos estadísticos, por lo que el conocimiento estadístico también es fundamental. Los puntos de conocimiento que es necesario dominar son los siguientes:
Estadísticas básicas: media, mediana, moda, percentil, valor extremo, etc.
Otros conocimientos estadísticos: asimetría, varianza, desviación estándar, significancia, etc.
Otros conocimientos estadísticos: población y muestra, parámetros y estadísticas, barras de error.
Distribución de probabilidad y prueba de hipótesis: diversas distribuciones y procesos de prueba de hipótesis
Otros conocimientos de la teoría de la probabilidad: probabilidad condicional, Bayes, etc.
Con conocimientos básicos de estadística, podrá utilizar estos datos estadísticos para realizar análisis básicos. Al describir los indicadores de los datos de forma visual, se pueden sacar muchas conclusiones, como cuáles están entre los 100 primeros, cuál es el nivel medio y cuáles son las tendencias de los últimos años...
Puede utilizar el paquete de Python Seaborn (python para realizar estos análisis visuales, puede dibujar fácilmente varios gráficos visuales y obtener resultados instructivos. Después de comprender la prueba de hipótesis, puede juzgar si existe una diferencia entre los indicadores de muestra y los indicadores generales de la hipótesis y verificar ¿Está el resultado dentro de un rango aceptable?
Análisis de datos de Python
Si tiene ciertos conocimientos, sabrá que en realidad hay muchos libros sobre ello. Análisis de datos de Python en el mercado, pero cada libro es muy denso y difícil de aprender, pero de hecho, la información más útil es solo una pequeña parte de estos libros. Por ejemplo, usar Python para probar hipótesis en diferentes situaciones puede verificarse. los datos.
Por ejemplo, al dominar el método de análisis de regresión, a través de la regresión lineal y la regresión logística, puede realizar análisis de regresión en la mayoría de los datos y sacar conclusiones relativamente precisas. Por ejemplo, las competiciones de entrenamiento de DataCastle ". "Predicción del precio de la vivienda" y "Predicción de la posición" son ambas. Se puede lograr mediante el análisis de regresión. Los puntos de conocimiento que deben dominarse en esta parte son los siguientes:
Análisis de regresión: regresión lineal y regresión logística
Algoritmos de clasificación básicos: árbol de decisión, bosque aleatorio...
Algoritmo de agrupamiento básico: k-means...
Conceptos básicos de ingeniería de características: cómo optimice el modelo mediante la selección de funciones
Método de ajuste de parámetros: cómo ajustar los parámetros para la optimización del modelo
Paquetes de análisis de datos de Python: scipy, numpy, scikit-learn, etc.
En esta etapa del análisis de datos, la mayoría de los problemas se pueden resolver centrándose en el análisis de regresión. Utilizando análisis estadístico descriptivo y análisis de regresión, puede obtener una buena conclusión del análisis.
Por supuesto, según su práctica. aumenta, es posible que encuentre algunos problemas complejos, por lo que es posible que deba aprender sobre algunos algoritmos más avanzados: clasificación y agrupación, y luego sabrá qué modelo de algoritmo es más adecuado para diferentes tipos de problemas. aprenda cómo mejorar la precisión de la predicción mediante la extracción de características y el ajuste de parámetros. De hecho, un buen analista de datos debe considerarse como un ingeniero de minería de datos junior. p> En este momento, ya tiene capacidades básicas de análisis de datos, pero necesita llevar a cabo un combate real basado en diferentes casos y diferentes escenarios comerciales. Si puede completar las tareas de análisis de forma independiente, entonces habrá derrotado a la mayoría de los analistas de datos del mercado.
¿Cómo realizar un combate real? >
Para los conjuntos de datos públicos mencionados anteriormente, puedes encontrar algunos datos en la dirección que te interesa e intentar analizarlos desde diferentes ángulos para ver qué conclusiones valiosas. puedes dibujar.
Otra perspectiva es que puedes encontrar algunos problemas que pueden ser analizados desde tu vida y tu trabajo. Por ejemplo, hay muchas cuestiones que se pueden discutir en la dirección del comercio electrónico, la contratación, las redes sociales y otras plataformas mencionadas anteriormente.
Al principio, es posible que no pienses en todos los temas, pero a medida que acumules experiencia, encontrarás gradualmente la dirección del análisis y cuáles son las dimensiones generales del análisis, como clasificaciones, nivel promedio, distribución regional, distribución por edades, análisis de correlación, predicción de tendencias futuras, etc. A medida que aumente su experiencia, tendrá algunos sentimientos sobre los datos, que es lo que normalmente llamamos pensamiento de datos.
También puedes consultar informes de análisis de la industria para ver las perspectivas de analistas destacados y analizar las dimensiones del problema. De hecho, esto no es nada difícil.
Después de dominar los métodos de análisis básicos, también puede intentar participar en algunas competencias de análisis de datos, como las tres competencias especialmente personalizadas por DataCastle para analistas de datos. Puede obtener puntuaciones y clasificaciones enviando sus respuestas:< /p >
Concurso de formación en predicción de la rotación de empleados
Concurso de formación en predicción del precio de la vivienda en el condado de King
Concurso de formación en análisis de concentración de PM2.5 en Beijing
Plantar un árbol es lo máximo El mejor momento fue hace diez años, el segundo mejor momento fue ahora. ¡Encuentre un conjunto de datos ahora y comience! !