¿Cómo empezar con big data?
¿Escuché que quieres aprender big data? ¿Estás seguro de que entiendes el concepto? Hagamos un test:
¿Qué hace un analista de datos en una empresa?
¿Cuál es la mayor diferencia entre big data y datos ordinarios?
No tienes contacto con big data en tu trabajo diario. ¿Es lo que realmente quieres aprender?
Es un poco confuso. Yujun está aquí para ayudarte a aclarar estos conceptos en el menor tiempo posible y encontrar el camino a seguir.
¿Los “grandes” datos de big data son desconocidos para todos? No. Entramos en contacto con datos todos los días en nuestra vida diaria. La comparación de precios al comprar en Taobao, las bonificaciones que nos otorgaron después de la evaluación de fin de año, la cantidad de comentarios sobre los artículos publicados en Zhihu, todos estos son datos.
Dado que las personas pueden contar, los datos han estado ahí, al igual que el análisis de datos. ¿Qué pasa con los grandes datos?
Cuando se trata de big data, no se puede evitar Internet. Antes de la aparición de Internet, aunque los departamentos gubernamentales y algunas instituciones públicas habían obtenido una cantidad relativamente grande de datos a lo largo del tiempo, no tenían suficiente influencia. Hasta la aparición de los productos de Internet, debido a la conveniencia de recopilar datos de los usuarios, la cantidad de datos que otras industrias pueden obtener en un año generalmente se puede acumular en un día.
La actualización del volumen de datos requiere que se actualicen tanto los algoritmos como el hardware, y la dificultad técnica de operación también aumentará mucho. En este momento, se necesitan tecnologías y plataformas profesionales para completar el trabajo de almacenar, procesar y analizar big data. Por ejemplo, todo el mundo ha oído hablar de la plataforma Hadoop y del algoritmo MapReduce. Todos ellos son productos de la era del big data.
Por lo tanto, creo que el núcleo del big data reside en la grandeza.
Las empresas de Internet de cierta escala crearán departamentos especiales de big data para gestionar los big data recopilados por sus productos. Cuanto mayor es la cantidad de datos, más difícil es procesarlos y, en consecuencia, se pueden extraer más connotaciones. Como resultado, el big data se ha convertido en una industria, una industria candente.
Personas en el círculo de big data En la industria de big data, los puestos ofrecidos por la empresa se dividen aproximadamente en tres categorías: analistas de datos, gerentes de productos de datos e ingenieros de datos. Trabajan en estrecha colaboración para impulsar la cultura de toma de decisiones basada en datos de la empresa.
Entonces, ¿qué hacen las tres posiciones? ¿Cómo ingresar a la industria?
Analista de Datos
Un analista de datos es una persona que utiliza big data. El núcleo es dominar varias herramientas de análisis de datos y habilidades de análisis de datos. El objetivo es proporcionar informes de análisis a la dirección de la empresa y a los equipos de productos para ayudarlos a tomar decisiones.
En el trabajo real, los datos se procesarán en varios tipos para que los utilicen los analistas de datos, algunos son relativamente primitivos y otros son relativamente simples y fáciles de usar. Por lo tanto, los analistas de datos deben dominar R, SQL, Excel, Python y otras habilidades básicas de programación, así como dominar los métodos de análisis de datos más utilizados.
Si estás decidido a convertirte en analista de datos o incluso en científico de datos, te recomiendo encarecidamente que estudies sistemáticamente.
Gerente de productos de datos
Un gerente de productos de datos es la persona que diseña productos de datos. Las habilidades básicas son el análisis de requisitos de datos y el diseño de productos de datos, que no son esencialmente diferentes de los de otros gerentes de productos de Internet. En el trabajo real, los gerentes de productos de datos deben recopilar las necesidades de datos de diferentes usuarios y diseñar productos de datos útiles para brindarlos a todos y ayudarlos a "usar datos para tomar decisiones".
¿Cómo empezar? Con respecto al proceso avanzado específico, espero que escuche la conferencia "4 pasos para convertirse en un gerente de productos de Big Data" que di en Yiyiting.com, que le brindará una introducción muy completa.
Los libros introductorios comúnmente recomendados incluyen "Todos son gerentes de producto", "The DatawareHouse Toolkit", "Lean Analytics", etc.
Ingeniero de datos
Los ingenieros de datos se dividen simplemente en dos tipos: uno son ingenieros de minería de datos y el otro son ingenieros de plataformas de big data. La habilidad básica de un ingeniero es, por supuesto, escribir código y escribir código de alta calidad.
El trabajo principal de los ingenieros de minería de datos es desarrollar canales de big data y completar proyectos de minería de datos con analistas de datos, mientras que el trabajo principal de los ingenieros de plataformas de datos es mantener la plataforma de big data.
Por lo tanto, serán competentes aquellos con experiencia en ciencias e ingeniería, que dominen lenguajes de programación/scripting como C, C#, Python, etc., y que estén familiarizados con varios algoritmos básicos.
Cómo utilizar los datos para tomar decisiones
Para aquellos que no quieren cambiar de carrera y entrar en el círculo del big data, ¿qué necesitamos aprender exactamente?
Creo que en nuestro trabajo diario, especialmente cuando nuestro desempeño es pobre y no podemos encontrar un gran avance, todos hemos pensado si podemos usar los datos para ayudarnos a nosotros mismos. Porque todos hemos oído hablar de casos de datos asombrosos en un momento u otro, como los pañales y la cerveza.
Por poner un ejemplo sencillo, el restaurante que regentas se encuentra en malas condiciones. Puede generar un montón de ideas nuevas para intentar mejorar la situación. También puede recopilar y organizar datos, descubrir las causas fundamentales mediante análisis y proponer las soluciones correspondientes para revertir la situación. Esto último suena más fiable.
Entonces, ¿qué datos deberías recopilar y qué análisis deberías hacer? Esto es lo que necesitas aprender: "Cómo utilizar los datos para tomar decisiones". Desde esta perspectiva, creo:
Todos deberían ser analistas de datos
Para aprender a tomar decisiones sistemáticas y a pensar en el análisis de datos, podemos comenzar con este artículo: De 0 Ir a 1 para construir un sistema de conocimiento de análisis de datos. Incluye los métodos de análisis de datos comúnmente utilizados en mi propio trabajo, como análisis de tendencias, descomposición multidimensional, segmentación de usuarios, análisis de embudo, etc. Por favor, no subestimes un artículo. El conocimiento es más importante que el bien.
También puede comenzar a desarrollar su pensamiento de análisis de datos a partir del libro simple y fácil de leer "¿Quién dijo que los novatos no pueden hacer análisis de datos?".
Hay tantos libros sobre análisis de datos que es difícil nombrarlos todos. Basta con buscarlos y habrá muchas recomendaciones. Los conocimientos y teorías discutidos son en realidad similares. Al final, para que sean eficaces aún es necesario combinarlos con la práctica.
Por lo tanto, creo que la mejor manera de aprender es practicar más análisis de datos en su propio negocio y trabajo, pensar más y hacer preguntas en la comunidad para discutir con todos cuando encuentre problemas. Siempre he practicado esto yo mismo.
La mejor manera es estudiar con preguntas.
En este proceso, a medida que obtenga una comprensión más profunda de los datos, dominará más lenguajes y herramientas de análisis de datos. Desde Excel a SQL, incluso a R y Python. La cantidad de datos que puedes utilizar también aumentará. Pero no es necesario que se sumerja en el aprendizaje de estas herramientas desde el principio, ya que eso tendrá poco efecto.