Red de Respuestas Legales - Derecho de bienes - ¿Qué necesitas aprender sobre big data?

¿Qué necesitas aprender sobre big data?

La especialización en big data es una dirección de aprendizaje técnico y una materia interdisciplinaria con una amplia gama de contenidos de aprendizaje. La estadística, las matemáticas y la informática son las tres disciplinas pilares, y la biología, la medicina, las ciencias ambientales, la economía y la gestión son la expansión auxiliar. Además, necesitamos aprender recopilación de datos, análisis de datos, software de procesamiento de datos y lenguajes de programación de computadoras. Diferentes trabajos y direcciones requieren diferentes trabajos, por eso nacieron muchos trabajos. Las direcciones de desarrollo comunes de big data son el desarrollo de big data y el análisis de big data.

Mirando hacia atrás, echemos un vistazo a los conceptos básicos del aprendizaje de big data.

1. java SE, EE (SSM)

El 90% de los frameworks de big data están escritos en Java.

2. MySQL

SQL en Hadoop

3. Linux

El marco de big data está instalado en el sistema operativo Linux.

-¿Qué necesitas aprender?

Análisis offline de big data

Generalmente procesa datos T+1 (T: puede ser 1 día, una semana, un mes, un año).

a. Hadoop: Generalmente no eliges la última versión, es difícil solucionar el problema si pisas los escollos.

(Usados ​​comúnmente, HDES, MapReduce, YARN)

Conceptos de construcción de entornos y procesamiento de datos

B.Hive: Almacén de datos para big data.

Operar datos escribiendo sql, similar al SQL de la base de datos MySQL.

Base de datos NOSQL basada en HDFS.

Almacenamiento orientado a columnas

D Marco de cooperación:

Sqoop (puente: HDFS "=" RDBMS)

Flume: recopilar información en archivos de registro.

Marco de programación E.

anzkaban

Comprensión: crotab (viene con Linux)

Zeus (Alibaba)

Oozie (cloudera)

f, extensiones de framework de última generación:

Kirin, Impala, búsqueda elástica

Análisis de big data en tiempo real

Basado principalmente en el framework Spark

Scala: OOP + FP (la función es programación)

SparkCore: analogía con MapReduce

SparkSQL: analogía to hive

p>

Spark Streaming: procesamiento de datos en tiempo real

Kafka: cola de mensajes

Extensión de Frontier Framework: flink

Alibaba : Blink

Aprendizaje automático de big data

Spark MLlib: biblioteca de aprendizaje automático

Programación Pyspark: combinación de Python y Spark

Sistema de recomendación

Análisis de datos de Python

Aprendizaje automático de Python