Introducción a los diez trabajos principales en las tres principales direcciones de empleo en la industria de big data
En la actualidad, la tendencia de big data ha pasado gradualmente del concepto a la implementación a medida que la gente de TI sigue la ola de big data. transformación, las grandes empresas están buscando talentos de big data de alto nivel. Las necesidades son cada vez más urgentes. Esta tendencia también brinda una oportunidad profesional poco común para quienes desean trabajar en big data.
SiShu Cloud Computing and Big Data Service Center, conocido como SiShu Shuyun (afiliado a Beijing SiShu Technology Co., Ltd.), es una organización profesional de consultoría y capacitación en análisis de big data en China. El Comité de Procesamiento de Big Data de Computación en la Nube de China estableció el centro de servicios de big data "Newby-Sisshu Cloud Service" en 2012 junto con técnicos de big data del Instituto de Software de la Academia de Ciencias de China, la Universidad de Tsinghua, Google, Yahoo, Tencent, Alibaba y el Instituto de Investigación Móvil de China.
Si Shuyun resumió las tres direcciones principales de empleo de big data a partir de la práctica a largo plazo: talentos de I + D de sistemas de big data, talentos de desarrollo de aplicaciones de big data y talentos de análisis de big data. En estas tres direcciones, sus puestos básicos son generalmente ingenieros de I + D de sistemas de big data, ingenieros de desarrollo de aplicaciones de big data y analistas de datos.
Desde una perspectiva empresarial, los talentos de big data se pueden dividir aproximadamente en tres áreas: análisis de productos y mercados, análisis de seguridad y riesgos e inteligencia empresarial. El análisis de productos se refiere a probar la eficacia de nuevos productos mediante algoritmos, que es un campo relativamente nuevo. En términos de seguridad y análisis de riesgos, los científicos de datos saben qué datos deben recopilarse, cómo analizarlos rápidamente y, en última instancia, frenar eficazmente las intrusiones en la red o capturar a los ciberdelincuentes mediante el análisis de la información.
1. Investigación y desarrollo de ETL
Con cada vez más tipos de datos, las empresas tienen una demanda cada vez mayor de profesionales de integración de datos. Los desarrolladores de ETL trabajan con diferentes fuentes de datos y organizaciones, extraen datos de diferentes fuentes, los transforman e importan al almacén de datos para satisfacer las necesidades de la empresa.
La I+D de ETL es principalmente responsable de extraer datos de fuentes de datos dispersas y heterogéneas, como datos relacionales y archivos de datos planos, en una capa intermedia temporal para su limpieza, conversión e integración, y finalmente cargarlos en un almacén de datos o En el mercado de datos, se convierte en la base para el procesamiento analítico en línea y la extracción de datos.
En la actualidad, la industria ETL está relativamente madura y el ciclo de vida laboral de los puestos relacionados es relativamente largo, generalmente completado por empleados internos y contratistas subcontratados. Una de las razones por las que los talentos de ETL son tan populares en la era del big data es que en los primeros días de las aplicaciones empresariales de big data, Hadoop era solo el ETL de los pobres.
2. Desarrollo de Hadoop
El núcleo de Hadoop es HDFS y MapReduce. HDFS proporciona almacenamiento de datos masivos y MapReduce proporciona cálculo de datos. A medida que el tamaño de los conjuntos de datos continúa expandiéndose y el alto costo del procesamiento de datos de BI tradicional, la demanda empresarial de Hadoop y tecnologías de procesamiento de datos baratas relacionadas, como Hive, HBase, MapReduce, Pig, etc., seguirá creciendo. Hoy en día, los técnicos con experiencia en el marco de Hadoop son los talentos de big data más buscados.
En tercer lugar, el desarrollo de herramientas de visualización (demostración frontal)
El análisis de datos masivos es un gran desafío. Las nuevas herramientas de visualización de datos como Spotifre, Qlikview y Tableau pueden hacerlo. Visualice datos de forma intuitiva y eficiente.
El desarrollo visual es una herramienta de desarrollo visual que genera automáticamente software de aplicación operando elementos de interfaz en la interfaz gráfica de usuario proporcionada por la herramienta de desarrollo visual. También es fácil conectar todos sus datos en múltiples recursos y niveles. La biblioteca de componentes visuales con todas las funciones, totalmente extensible y probada en el tiempo proporciona a los desarrolladores una colección de componentes completa y fácil de usar para crear interfaces de usuario extremadamente ricas.
En el pasado, la visualización de datos pertenecía a la categoría de desarrolladores de inteligencia empresarial, pero con el auge de Hadoop, la visualización de datos se ha convertido en una habilidad y posición profesional independiente.
En cuarto lugar, el desarrollo de la arquitectura de la información
Los macrodatos han reavivado la moda de la gestión de datos maestros. Hacer un uso completo de los datos empresariales para respaldar la toma de decisiones requiere habilidades muy profesionales. Los arquitectos de la información deben saber cómo definir y documentar elementos clave para garantizar que los datos se gestionen y utilicen de la manera más eficaz. Las habilidades clave para los arquitectos de la información incluyen la gestión de datos maestros, el conocimiento empresarial y el modelado de datos.
Verbo (abreviatura de verbo) investigación sobre almacenes de datos
Un almacén de datos es una colección estratégica de todo tipo de datos que respalda el proceso de toma de decisiones en todos los niveles de la empresa. Es un almacén de datos independiente que se utiliza para informes analíticos y soporte de decisiones. Proporciona a las empresas la inteligencia empresarial que necesitan para guiar las mejoras de los procesos empresariales y controlar el tiempo, los costes, la calidad y el control.
Los expertos en almacenamiento de datos están familiarizados con máquinas todo en uno de big data como Teradata, Neteeza y Exadata. La integración de datos, la gestión y la optimización del rendimiento se pueden completar en estas máquinas todo en uno.
Sexto, desarrollo de OLAP
Con el desarrollo y la aplicación de la tecnología de bases de datos, la cantidad de datos almacenados en la base de datos ha cambiado de megabytes (M) a gigabytes (M) en la década de 1980. G) desarrollado al megabyte (T) y gigabyte (P) actuales. Al mismo tiempo, las necesidades de consulta de los usuarios son cada vez más complejas, lo que no solo implica consultar u operar uno o varios registros en una tabla relacional, sino que también implica analizar y proporcionar información sobre decenas de millones de registros en varias tablas. con. Los sistemas de procesamiento analítico en línea (OLAP) son responsables de resolver problemas de procesamiento de datos tan masivos.
Los desarrolladores de análisis en línea OLAP son responsables de extraer datos de fuentes de datos relacionales o no relacionales para construir modelos y luego crear interfaces de usuario para el acceso a los datos para proporcionar capacidades de consulta predefinidas de alto rendimiento.
7. Investigación en ciencia de datos
Esta posición solía llamarse investigación de arquitectura de datos. Los científicos de datos son un nuevo tipo de trabajo que puede transformar los datos y la tecnología empresariales en valor empresarial. A medida que se desarrolle la ciencia de datos, se realizarán cada vez más trabajos prácticos sobre los datos, lo que permitirá a los humanos comprender los datos y, por tanto, comprender la naturaleza y el comportamiento. Por lo tanto, los científicos de datos primero deben tener excelentes habilidades de comunicación y ser capaces de explicar los resultados del análisis de datos a los líderes del departamento de TI y de los departamentos comerciales al mismo tiempo.
En términos generales, los científicos de datos son una combinación de analistas y artistas, que requieren una variedad de habilidades científicas y comerciales interdisciplinarias.
8. Análisis de predicción de datos (minería de datos)
Los departamentos de marketing suelen utilizar el análisis predictivo para predecir el comportamiento del usuario o los usuarios objetivo. Algunos escenarios para los desarrolladores de análisis predictivos parecen similares a los de los científicos de datos, que prueban umbrales y predicen el desempeño futuro a través de hipótesis basadas en los datos históricos de una empresa.
9. Gestión de datos empresariales
Para mejorar la calidad de los datos, las empresas deben considerar la gestión de datos y establecer puestos de administrador de datos. Los trabajadores en este puesto deben poder utilizar diversas herramientas técnicas para recopilar grandes cantidades de datos en la empresa, limpiarlos y estandarizarlos e importarlos al almacén de datos en una versión utilizable. Luego, los datos se dividen, trocean y entregan a miles de personas a través de tecnología de informes y análisis. Como administradores de datos, las personas deben garantizar la integridad, precisión, singularidad, autenticidad y no redundancia de los datos de mercado.
X. Investigación sobre seguridad de datos
Los puestos de seguridad de datos son principalmente responsables de la gestión de servidores, almacenamiento y seguridad de datos de grandes empresas, así como de la planificación, diseño e implementación de Proyectos de seguridad de redes y de la información. Los investigadores de seguridad de datos también deben tener una sólida experiencia en gestión, conocimientos y capacidades de gestión de operación y mantenimiento, y tener un conocimiento profundo del negocio tradicional de la empresa para garantizar la seguridad e integridad de los datos corporativos.
;