Cómo aprender a extraer datos de forma sistemática
Actualmente, la minería de datos no es popular en China, al igual que matar un dragón.
La preparación inicial de datos suele representar alrededor del 70% de toda la carga de trabajo del proyecto de minería de datos.
La minería de datos en sí combina estadísticas, bases de datos y aprendizaje automático, y no es una tecnología nueva.
La tecnología de minería de datos es más adecuada para que el personal empresarial aprenda (más eficiente que el personal técnico para aprender negocios)
La minería de datos es adecuada para la inteligencia empresarial tradicional (informes, OLAP, etc. ) campos. ) no se puede admitir.
Los proyectos de minería de datos a menudo requieren trabajo repetitivo y no cualificado.
Si encuentra aceptable el contenido anterior, continúe leyendo.
Aprender una tecnología debe estar cerca de la industria. La tecnología sin experiencia en la industria es como un castillo en el aire. El desarrollo de la tecnología, especialmente en el campo de la informática, es vasto y rápido (hace diez años se podía crear una empresa diseñando una página web), y la mayoría de la gente no tiene la energía ni el tiempo para dominar plenamente todos los detalles técnicos. Sin embargo, cuando se combinan tecnología e industria, pueden volverse independientes. Por un lado, ayuda a comprender los puntos débiles y las necesidades rígidas de los usuarios. Por otro lado, puede acumular experiencia en la industria y utilizar el pensamiento de Internet para cruzar fronteras, lo que le facilitará el éxito. No intente cubrir todo cuando aprenda tecnología, de lo contrario perderá su competitividad central.
1. Los campos de trabajo actuales de los mineros de datos nacionales se pueden dividir aproximadamente en tres categorías.
1) Analista de datos: realiza consultoría empresarial, inteligencia empresarial y produce informes de análisis en industrias con datos industriales, como comercio electrónico, finanzas, telecomunicaciones, consultoría, etc.
2) Ingenieros de minería de datos: implementan y analizan algoritmos de aprendizaje automático en industrias relacionadas con big data, como multimedia, comercio electrónico, búsqueda y redes sociales.
3) Dirección de la investigación científica: Estudiar la mejora de la eficiencia y la futura aplicación de nuevos algoritmos en universidades, unidades de investigación científica e institutos de investigación corporativos.
En segundo lugar, hable sobre las habilidades que es necesario dominar en diversos campos laborales.
(1). Analista de Datos
Requiere una base profunda en estadística matemática, pero no requiere capacidades de desarrollo de programas.
Debe dominar el uso de herramientas convencionales de minería de datos (o análisis estadístico), como software de análisis e inteligencia empresarial (SAS), SPSS, EXCEL, etc.
Requiere una comprensión profunda de todos los datos principales relacionados con la industria, así como un cierto grado de capacitación en sensibilidad de datos.
Recomendaciones de libros clásicos: "Probabilidad y estadística matemática", "Estadística recomendada por David Friedman", "Modelado de negocios y minería de datos", "Introducción a la minería de datos", "Programación SAS" y casos de negocios de minería de datos ", "Métodos y aplicaciones de minería de datos de Clementine", "Referencia de VBA de Excel 2007", "Compañero del programa estadístico IBM SPSS Statistics 19
(2). Es necesario comprender los principios y aplicaciones de los principales algoritmos de aprendizaje automático.
Familiarizado con al menos un lenguaje de programación como Python, C, C++, Java y Delphi.
Lo mejor es comprender los principios de las bases de datos, ser competente en la operación de al menos una base de datos (Mysql, sql, DB2, Oracle, etc.), comprender los principios de MapReduce y dominar el uso de Serie de herramientas Hadoop.
Recomendaciones de libros clásicos: Conceptos y técnicas de minería de datos, práctica de aprendizaje automático, inteligencia artificial y sus aplicaciones, introducción a los sistemas de bases de datos, introducción a los algoritmos, minería de datos web, biblioteca estándar de Python, pensamiento en Java y C++. Pensamiento, estructuras de datos, etc.
(3) Dirección de la investigación científica
Necesita aprender las bases teóricas de la minería de datos, incluida la minería de reglas de asociación (Apriori y FPTree), algoritmos de clasificación (C4.5, KNN, Logistic regresión, SVM, etc.) y algoritmos de agrupamiento (Kmeans, agrupamiento espectral). El objetivo es primero tener una comprensión profunda del uso, ventajas y desventajas de los 10 algoritmos para la minería de datos.
En comparación con SAS y SPSS, el lenguaje R es más adecuado para proyectos R para computación estadística, porque el software R es completamente gratuito y el entorno comunitario abierto proporciona una variedad de soporte de kit de herramientas adicional, que es más adecuado para análisis e investigación estadística. Aunque actualmente no es muy conocido en China, es muy recomendable.
Podemos intentar mejorar algunos algoritmos convencionales para hacerlos más rápidos y eficientes, como implementar la plataforma de llamada de algoritmos en la nube SVM en la plataforma hadoop: el proyecto web llama clúster Hadoop.
Requiere una lectura extensa y profunda de artículos de conferencias de fama mundial y tecnología de seguimiento de puntos de acceso. Como KDD, ICML, IJCAI, Asociación para la Promoción de la Inteligencia Artificial, ICDM, etc., también existen revistas relacionadas con la minería de datos: ACM Transacciones sobre descubrimiento de conocimiento a partir de datos, IEEE Transacciones sobre conocimiento e ingeniería de datos, Revista de aprendizaje automático. página de inicio de investigación, IEEE xplore: análisis de patrones e inteligencia artificial, transacciones IEEE en, etc.
Puedes intentar participar en concursos de minería de datos para desarrollar tu capacidad para resolver problemas prácticos en diversos aspectos. Como Sig KDD, "kaggle: del big data al gran análisis", etc.
Puedes intentar contribuir con tu código a algunos proyectos de código abierto, como Apache Mahout: aprendizaje automático escalable y minería de datos, Myrrix, etc. (Puede encontrar proyectos más interesantes en SourceForge o GitHub).
Recomendaciones de libros clásicos: "Aprendizaje automático", "Clasificación de patrones", "La esencia de la teoría del aprendizaje estadístico", "Métodos de aprendizaje estadístico" " , "Tecnología práctica de aprendizaje automático para la minería de datos", "Práctica del lenguaje R", "La calidad del inglés es crucial para los talentos de investigación científica", etc. "Aprendizaje automático: una perspectiva probabilística", "Ampliación de la escala del aprendizaje automático: paralelo y distribuido Métodos" ", "Minería de datos mediante sasen". Minero empresarial: métodos de estudio de casos, Python para análisis de datos y más.
3. La siguiente es la experiencia laboral de los ingenieros de minería de datos en la industria de las comunicaciones.
Desde la perspectiva de la práctica de proyectos de minería de datos, las habilidades de comunicación son las más importantes para los intereses mineros. Sólo cuando tienes un hobby puedes estar dispuesto a aprender. Solo con buenas habilidades de comunicación podrá comprender correctamente los problemas comerciales, transformar correctamente los problemas comerciales en problemas mineros y expresar claramente sus intenciones e ideas entre los profesionales relevantes para obtener su comprensión y apoyo. Por lo tanto, creo que las habilidades, los intereses y los pasatiempos de comunicación son la competitividad central de la minería de datos personales, que son relativamente difíciles de aprender, cualquiera puede aprender otros conocimientos profesionales relacionados, pero esta no es la competitividad central del desarrollo personal.
Hablando de eso, hay muchos expertos en almacenamiento de datos, programadores, estadísticos, etc. Se pueden tirar ladrillos. Lo siento, no quise decir nada más. Su especialización es importante para la minería de datos. Cada uno es un todo, pero como un solo individuo, es imposible dominar estas áreas con energía y tiempo limitados. En este caso, el núcleo más importante deberían ser las habilidades de minería de datos y las capacidades comerciales relacionadas (desde el otro extremo, aunque no comprende el almacenamiento de datos, un simple Excel es suficiente para procesar 60.000 muestras). Aunque no comprende las habilidades de exhibición profesional, siempre que pueda entenderlas por sí mismo, no hay necesidad de una exhibición; como se mencionó anteriormente, debe dominar las habilidades estadísticas, lo cual es muy importante para su miniproyecto; Entiende la programación, pero sus herramientas y habilidades profesionales de minería son suficientes para practicar. De esta manera, en un mini proyecto, una persona que conoce las habilidades mineras y las capacidades comerciales de marketing puede completarlo con éxito, e incluso en una fuente de datos, se pueden extraer infinitamente diferentes ideas de proyectos según las necesidades comerciales. Por favor, cuénteme sobre este mini proyecto: un simple experto en almacenamiento de datos, un simple programador, un simple técnico de exhibición o incluso un simple experto en tecnología minera son todos incompetentes. Esto también explica desde otro aspecto por qué las habilidades comunicativas son importantes. Estos campos profesionales completamente diferentes quieren integrarse de manera efectiva y orgánica para la práctica de proyectos de minería de datos. ¿Crees que no tienes buenas habilidades de comunicación?
Las capacidades de minería de datos solo se pueden mejorar y sublimar en el horno de la práctica del proyecto, por lo que seguir el proyecto para aprender a minar es el atajo más eficaz. Las personas que estudian minería en el extranjero siempre trabajan al principio en proyectos con sus jefes.
Está bien si no lo entienden al principio. Cuanto menos comprendan, mejor sabrán qué aprender y más rápida y eficazmente aprenderán. No sé cómo aprenden los estudiantes de minería de datos nacionales, pero a juzgar por algunos foros en línea, muchos de ellos simplemente hablan en papel, lo cual es una pérdida de tiempo e ineficiente.
Además, el concepto de minería de datos en China es muy confuso ahora. Muchos BI se limitan a la presentación de informes y al análisis estadístico simple, pero también se le llama minería de datos. Por otro lado, sólo hay un puñado de industrias nacionales (bancos, compañías de seguros, comunicaciones móviles) que realmente implementan la minería de datos a gran escala, y las aplicaciones en otras industrias sólo pueden considerarse a pequeña escala. Por ejemplo, muchas universidades tienen algunos temas y proyectos relacionados con la minería, pero están relativamente dispersos y en la etapa de exploración. Sin embargo, creo que la minería de datos debe ser muy prometedora en China, porque este es el desarrollo inevitable de la historia.
Hablando de fundas de móviles reales, si eres móvil, debes saber que hay una empresa en China llamada Huayuan Analysis (no tengo nada que ver con esta empresa, pero la he analizado desde la perspectiva de un minero de datos La mayoría de las llamadas empresas de servicios de minería de datos en China, creo que Huayuan es bastante buena, más práctica que muchas grandes empresas solo de nombre). Su negocio ahora cubre el análisis y proyectos de minería de la mayoría de las empresas móviles provinciales del país. Debería poder encontrar información detallada buscando en línea. Lo que más me impresionó del análisis de Huayuan es que en 2002, esta empresa empezó desde cero. Está bien no conocerse a sí mismo. Comenzó a ampliar su clientela mientras se educaba. Ahora ha florecido en el mercado de comunicaciones móviles de China. Realmente lo admiro. Al principio se utilizó EXCEL para procesar los datos y se compararon diferentes modelos a simple vista. La dificultad se puede imaginar.
En cuanto a las aplicaciones específicas de la minería de datos en las comunicaciones móviles, hay demasiadas, como la formulación de diferentes paquetes telefónicos, modelos de abandono de clientes, modelos de venta cruzada de diferentes negocios, análisis elástico de diferentes clientes. preferencias, modelo de segmentación de grupos de clientes, modelo de ciclo de vida de diferentes clientes, modelo de selección de canales, modelo de alerta temprana de fraude malicioso, etc. Recuerde, a partir de las necesidades de los clientes y los problemas prácticos, las comunicaciones móviles pueden encontrar demasiados proyectos mineros. Finalmente, déjame contarte un secreto. Cuando sus capacidades de minería de datos mejoren hasta cierto nivel, descubrirá que, sin importar la industria, la mayoría de las aplicaciones de minería de datos son similares y se sentirá más relajado.