¿Qué necesitas aprender sobre big data?
Mirando hacia atrás, echemos un vistazo a los conceptos básicos del aprendizaje de big data.
1. java SE, EE (SSM)
El 90% de los frameworks de big data están escritos en Java.
2. MySQL
SQL en Hadoop
3. Linux
El marco de big data está instalado en el sistema operativo Linux.
-¿Qué necesitas aprender?
Análisis offline de big data
Generalmente procesa datos T+1 (T: puede ser 1 día, una semana, un mes, un año).
a. Hadoop: Generalmente no eliges la última versión, es difícil solucionar el problema si pisas los escollos.
(Usados comúnmente, HDES, MapReduce, YARN)
Conceptos de construcción de entornos y procesamiento de datos
B.Hive: Almacén de datos para big data.
Operar datos escribiendo sql, similar al SQL de la base de datos MySQL.
Base de datos NOSQL basada en HDFS.
Almacenamiento orientado a columnas
D Marco de cooperación:
Sqoop (puente: HDFS "=" RDBMS)
Flume: recopilar información en archivos de registro.
Marco de programación E.
anzkaban
Comprensión: crotab (viene con Linux)
Zeus (Alibaba)
Oozie (cloudera)
f, extensiones de framework de última generación:
Kirin, Impala, búsqueda elástica
Análisis de big data en tiempo real p >
Basado principalmente en el framework Spark
Scala: OOP + FP (la función es programación)
SparkCore: analogía con MapReduce
SparkSQL: analogía to hive
p>Spark Streaming: procesamiento de datos en tiempo real
Kafka: cola de mensajes
Extensión de Frontier Framework: flink
Alibaba : Blink
Aprendizaje automático de big data
Spark MLlib: biblioteca de aprendizaje automático
Programación Pyspark: combinación de Python y Spark
Sistema de recomendación
Análisis de datos de Python
Aprendizaje automático de Python