Red de Respuestas Legales - Derecho de bienes - El mejor modelo de análisis para big data es la "optimización", ¿verdad?

El mejor modelo de análisis para big data es la "optimización", ¿verdad?

1. Análisis visual

Los usuarios del análisis de big data incluyen expertos en análisis de big data y usuarios comunes, pero el requisito más básico para el análisis de big data para ambos es la visualización. Porque el análisis visual puede presentar intuitivamente las características de big data y los lectores pueden aceptarlo fácilmente, tan simple y claro como hablar a través de imágenes.

2. Algoritmo de minería de datos

El núcleo teórico del análisis de big data es el algoritmo de minería de datos. Varios algoritmos de minería de datos se basan en diferentes tipos y formatos de datos para presentarlos de manera más científica. Tiene sus propias características, y es precisamente gracias a estos diversos métodos estadísticos (que pueden llamarse verdad) reconocidos por los estadísticos de todo el mundo que pueden penetrar profundamente en los datos y descubrir valores reconocidos. Otro aspecto es que estos algoritmos de minería de datos pueden procesar big data más rápidamente. Si un algoritmo tarda varios años en llegar a una conclusión, será imposible decir el valor de big data.

3. Análisis predictivo

Una de las áreas de aplicación finales del análisis de big data es el análisis predictivo, que implica extraer características de big data y establecer modelos científicamente, y luego se pueden generar nuevos datos. incorporados a través del modelo para predecir datos futuros.

4. Motor Semántico

La diversificación de los datos no estructurados trae nuevos desafíos al análisis de datos. Necesitamos un conjunto de herramientas para analizar y refinar sistemáticamente los datos. Los motores semánticos deben diseñarse con suficiente inteligencia artificial para extraer información de los datos de forma proactiva.

5. Calidad y gestión de datos. El análisis de big data es inseparable de la calidad y la gestión de los datos. Los datos de alta calidad y la gestión eficaz de los datos pueden garantizar la autenticidad y el valor de los resultados del análisis, ya sea en investigaciones académicas o aplicaciones comerciales.

La base del análisis de big data son los cinco aspectos anteriores. Por supuesto, si profundiza en el análisis de big data, existen muchos métodos de análisis de big data más distintivos, más profundos y más profesionales.

Tecnología big data

Recopilación de datos: las herramientas ETL se encargan de extraer datos de fuentes de datos distribuidas y heterogéneas, como datos relacionales, archivos de datos planos, etc., al medio temporal. La limpieza, transformación, integración y finalmente carga en un almacén de datos o mercado de datos se convierten en la base para el procesamiento analítico en línea y la extracción de datos.

Acceso a datos: base de datos relacional, NOSQL, SQL, etc.

Infraestructura: almacenamiento en la nube, almacenamiento distribuido de archivos, etc.

Procesamiento de datos: El procesamiento del lenguaje natural (NLP, Natural Language Processing) es una disciplina que estudia las cuestiones del lenguaje en la interacción entre humanos y ordenadores. La clave para procesar el lenguaje natural es permitir que la computadora "entienda" el lenguaje natural, por lo que el procesamiento del lenguaje natural también se denomina comprensión del lenguaje natural y lingüística computacional. Por un lado, es una rama del procesamiento de información del lenguaje y, por otro, es uno de los temas centrales de la inteligencia artificial.

Análisis estadístico: prueba de hipótesis, prueba de significancia, análisis de diferencias, análisis de correlación, prueba T, análisis de varianza, análisis chi-cuadrado, análisis de correlación parcial, análisis de distancia, análisis de regresión, análisis de regresión simple, regresión múltiple análisis, regresión por pasos, predicción de regresión y análisis residual, regresión de crestas, análisis de regresión logística, estimación de curvas, análisis factorial, análisis de conglomerados, análisis de componentes principales, análisis factorial, método de agrupamiento rápido y método de agrupamiento, análisis discriminante, análisis de correspondencia, análisis de correspondencia múltiple (análisis de escala óptima), tecnología bootstrap, etc.

Minería de datos: Clasificación, Estimación, Predicción, Reglas de agrupación o asociación por afinidad, Clustering, Descripción y Visualización, Descripción y Visualización), minería de tipos de datos complejos (Texto, Web, gráficos, imágenes, vídeos, audio, etc.)

Predicción de modelos: modelos predictivos, aprendizaje automático, modelado y simulación.

Presentación de resultados: computación en la nube, nube de etiquetas, diagrama de relaciones, etc.

Procesamiento de big data

1. Uno de los procesamientos de big data: recopilación

La recopilación de big data se refiere al uso de múltiples bases de datos para recibir datos del cliente. (Web, App o formulario de sensor, etc.), y los usuarios pueden realizar consultas y procesamientos simples a través de estas bases de datos. Por ejemplo, las empresas de comercio electrónico utilizan bases de datos relacionales tradicionales como MySQL y Oracle para almacenar los datos de cada transacción. Además, las bases de datos NoSQL como Redis y MongoDB también se utilizan comúnmente para la recopilación de datos.

En el proceso de recopilación de big data, su principal característica y desafío es la gran cantidad de concurrencia, porque puede haber miles de usuarios accediendo y operando al mismo tiempo, como los sitios web de venta de billetes de tren y Taobao. , su volumen de acceso simultáneo alcanza los millones en su punto máximo, por lo que es necesario implementar una gran cantidad de bases de datos en el extremo de la recopilación para respaldarlo.

Y cómo realizar el equilibrio de carga y la fragmentación entre estas bases de datos requiere una reflexión y un diseño profundos.

2. Parte 2 del procesamiento de big data: importación/preprocesamiento

Aunque el final de la recopilación en sí tendrá muchas bases de datos, si desea analizar de manera efectiva estos datos masivos, aún debe hacerlo. desde el front-end se importa a una base de datos distribuida centralizada a gran escala o a un clúster de almacenamiento distribuido, y se pueden realizar algunos trabajos simples de limpieza y preprocesamiento en función de la importación. Algunos usuarios también utilizarán Storm de Twitter para realizar cálculos de transmisión de datos al importarlos para satisfacer las necesidades informáticas en tiempo real de algunas empresas.

Las características y desafíos del proceso de importación y preprocesamiento son principalmente la gran cantidad de datos importados, y la cantidad de datos importados por segundo a menudo alcanza cientos de megabytes o incluso gigabytes.

3. Tercera parte del procesamiento de Big Data: Estadísticas/Análisis

Las estadísticas y el análisis utilizan principalmente bases de datos distribuidas o clústeres informáticos distribuidos para realizar operaciones comunes sobre los datos masivos almacenados en ellas. Resumen de clasificación, etc., para satisfacer las necesidades de análisis más comunes. En este sentido, algunos requisitos en tiempo real utilizarán GreenPlum de EMC, Exadata de Oracle y Infobright de almacenamiento de columnas basado en MySQL, mientras que algunos se procesarán por lotes. Hadoop basado en requisitos de datos semiestructurados.

La principal característica y desafío de la parte de estadísticas y análisis es que el análisis involucra una gran cantidad de datos, lo que consume muchos recursos del sistema, especialmente E/S.

4. Procesamiento de Big Data Parte 4: Minería

A diferencia del proceso de análisis y estadísticas anterior, la minería de datos generalmente no tiene temas preestablecidos y se basa principalmente en cálculos existentes. Se realizan varios algoritmos en los datos para lograr el efecto de predicción, cumpliendo así algunos requisitos de análisis de datos de alto nivel. Los algoritmos típicos incluyen Kmeans para agrupación, SVM para aprendizaje estadístico y NaiveBayes para clasificación. Las principales herramientas utilizadas incluyen Hadoop's Mahout, etc. Las características y desafíos de este proceso son principalmente que los algoritmos utilizados para la minería son muy complejos y la cantidad de datos y cálculos involucrados en el cálculo son grandes. Los algoritmos de minería de datos comúnmente utilizados son principalmente de un solo subproceso.

Todo el proceso general de procesamiento de big data debe cumplir al menos con estos cuatro pasos antes de que pueda considerarse como un procesamiento de big data relativamente completo.