Interpretación de métodos de análisis de big data e introducción a herramientas relacionadas.
Interpretación de métodos de análisis de big data e introducción de herramientas relacionadas
Debes saber que big data ya no es big data. La realidad más importante es analizar big data solo a través del análisis. ¿Podemos obtener mucha información inteligente, detallada y valiosa?
Cada vez más aplicaciones involucran big data. Los atributos de estos big data, incluida la cantidad, la velocidad, la diversidad, etc., presentan la creciente complejidad de los big data. Por lo tanto, las características de los métodos de análisis de big data. Son particularmente importantes en el campo del big data y se puede decir que son el factor decisivo para determinar si la información final es valiosa. En base a esto, ¿cuáles son las teorías de los métodos de análisis de big data?
Cinco aspectos básicos del análisis de big data
PredictiveAnalyticCapabilities
La minería de datos permite a los analistas comprender mejor los datos y la predicción El análisis sexual permite a los analistas hacer algunos juicios predictivos basados sobre los resultados del análisis visual y la minería de datos.
DataQuality y MasterData Management
La calidad y la gestión de datos son algunas de las mejores prácticas en gestión. El procesamiento de datos a través de procesos y herramientas estandarizados garantiza un resultado de análisis predefinido y de alta calidad.
Visualizaciones Analíticas (análisis visual)
Ya sea un experto en análisis de datos o un usuario común, la visualización de datos es el requisito más básico para las herramientas de análisis de datos. La visualización puede mostrar datos de forma intuitiva, dejar que los datos hablen por sí mismos y que la audiencia escuche los resultados.
SemanticEngines
Sabemos que la diversidad de datos no estructurados ha traído nuevos desafíos al análisis de datos. Necesitamos una serie de herramientas para analizar, extraer y analizar los datos. Es necesario diseñar motores semánticos para extraer información de forma inteligente de "documentos".
DataMiningAlgorithms (algoritmo de minería de datos)
La visualización es para que la gente la vea y la minería de datos es para que la vean las máquinas. La agrupación, la segmentación, el análisis de valores atípicos y otros algoritmos nos permiten profundizar en los datos y descubrir valor. Estos algoritmos deben manejar no sólo el volumen de big data, sino también la velocidad con la que se pueden procesar.
Si el big data es realmente la próxima innovación tecnológica importante, será mejor que nos centremos en los beneficios que el big data puede aportarnos, no sólo en los desafíos.
Procesamiento de big data
El procesamiento de big data tiene tres cambios principales en el concepto de la era de los datos: totalidad en lugar de muestreo, eficiencia en lugar de precisión absoluta, correlación en lugar de causalidad. En realidad, existen muchos métodos específicos de procesamiento de big data, pero basándose en la práctica a largo plazo, el autor ha resumido un proceso básico de procesamiento de big data, y este proceso debería poder ayudar a todos a agilizar el procesamiento de big data. Todo el proceso de procesamiento se puede resumir en cuatro pasos: recopilación, importación y preprocesamiento, estadísticas y análisis, y minería.
Colección
La recopilación de big data se refiere al uso de múltiples bases de datos para recibir datos de los clientes, y los usuarios pueden realizar consultas y procesamientos simples a través de estas bases de datos. Por ejemplo, las empresas de comercio electrónico utilizan bases de datos relacionales tradicionales como MySQL y Oracle para almacenar los datos de cada transacción. Además, las bases de datos NoSQL como Redis y MongoDB también se utilizan comúnmente para la recopilación de datos.
En el proceso de recopilación de big data, su principal característica y desafío es la gran cantidad de concurrencia, porque puede haber miles de usuarios accediendo y operando al mismo tiempo, como los sitios web de venta de billetes de tren y Taobao. , su volumen de acceso simultáneo alcanza los millones en su punto máximo, por lo que es necesario implementar una gran cantidad de bases de datos en el extremo de la recopilación para respaldarlo. Y cómo realizar el equilibrio de carga y la fragmentación entre estas bases de datos requiere una reflexión y un diseño profundos.
Estadística/Análisis
Las estadísticas y el análisis utilizan principalmente bases de datos distribuidas o grupos informáticos distribuidos para realizar análisis, clasificación y resumen ordinarios de los datos masivos almacenados en ellas, con el fin de satisfacer las necesidades más comunes. En este sentido, algunos requisitos en tiempo real utilizarán GreenPlum de EMC, Exadata de Oracle y Infobright de almacenamiento de columnas basado en MySQL, mientras que algunos requisitos de procesamiento por lotes o basados en datos semiestructurados se pueden utilizar. usado. La característica principal y el desafío de la parte de estadísticas y análisis es que el análisis involucra una gran cantidad de datos, lo que consume muchos recursos del sistema, especialmente E/S.
Importación/preprocesamiento
Aunque el final de la recopilación en sí tendrá muchas bases de datos, si desea analizar de manera efectiva estos datos masivos, debe importar los datos desde el front-end a una base de datos centralizada. base de datos distribuida a gran escala o un clúster de almacenamiento distribuido, y puede realizar algunos trabajos simples de limpieza y preprocesamiento basados en la importación. Algunos usuarios también utilizarán Storm de Twitter para realizar cálculos de transmisión de datos al importarlos para satisfacer las necesidades informáticas en tiempo real de algunas empresas.
Las características y desafíos del proceso de importación y preprocesamiento son principalmente la gran cantidad de datos importados, y la cantidad de datos importados por segundo a menudo alcanza cientos de megabytes o incluso gigabytes.
Minería
A diferencia del proceso de análisis y estadística anterior, la minería de datos generalmente no tiene temas preestablecidos y se basa principalmente en varios algoritmos de cálculo sobre datos existentes, logrando así una predicción. efecto, logrando así algunos requisitos de análisis de datos de alto nivel. Los algoritmos típicos incluyen K-Means para agrupación, SVM para aprendizaje estadístico y Naive Bayes para clasificación. Las principales herramientas utilizadas incluyen Hadoop's Mahout, etc. Las características y desafíos de este proceso son principalmente que los algoritmos utilizados para la minería son muy complejos y la cantidad de datos y cálculos involucrados en el cálculo son grandes. Además, los algoritmos de minería de datos comúnmente utilizados son principalmente de un solo subproceso.
Explicación detallada de las herramientas de análisis de big data: las herramientas de IBM, HP y Microsoft están en la lista
El año pasado, IBM anunció la adquisición de la empresa de análisis de datos Netezza por 1.700 millones de dólares; realizó otra adquisición después de adquirir el proveedor de software de almacenamiento de datos Greenplum, el fabricante de cluster NAS, Teradata, adquirió Aster Data, posteriormente HP adquirió la plataforma de análisis en tiempo real Vertica, etc. Estas adquisiciones apuntan al mismo mercado objetivo: big data. Sí, ha llegado la era del big data y todo el mundo se está preparando para aprovechar las oportunidades del mercado.
La estrella más deslumbrante aquí es Hadoop. Hadoop ha sido reconocida como una nueva generación de plataforma de procesamiento de big data. EMC, IBM, Informatica, Microsoft y Oracle han invertido en Hadoop. Para big data, lo más importante es analizar los datos y encontrar datos valiosos para ayudar a las empresas a tomar mejores decisiones comerciales. A continuación, echemos un vistazo a las siguientes ocho herramientas para el análisis de big data.
Plataforma de análisis unificada (UAP) EMC Greenplum
Greenplum fue adquirida por EMC en 2010. Su plataforma de análisis unificada (UAP) EMC Greenplum es una plataforma de software única para equipos de datos y equipos de análisis. Puede compartir información sin problemas y colaborar en análisis en la plataforma sin tener que trabajar en diferentes silos o mover datos entre silos. Como tal, UAP incluye la base de datos relacional ECM Greenplum, la distribución EMC Greenplum HD Hadoop y EMC Greenplum Chorus.
El hardware desarrollado por EMC para big data es el dispositivo modular de computación de datos (DCA) de EMC, que puede ejecutar y expandir la base de datos relacional Greenplum y los nodos Greenplum HD en un solo dispositivo. DCA proporciona una interfaz de centro de comando compartida que permite a los administradores monitorear, administrar y configurar la base de datos Greenplum y el rendimiento y la capacidad del sistema Hadoop. A medida que la plataforma Hadoop madure, se espera que las capacidades de análisis aumenten dramáticamente.
IBM combina BigInsights y BigCloud
Hace unos años, IBM comenzó a experimentar con Hadoop en sus laboratorios, pero el año pasado incorporó productos y servicios relacionados en la versión comercial de IBM InfoSphere BigInsights , que lanzó la versión en la nube de InfoSphere BigI en mayo del año pasado, permite a cualquier usuario dentro de la organización realizar análisis de big data. El software BigInsights en la nube puede analizar datos estructurados y no estructurados en la base de datos, lo que permite a los tomadores de decisiones convertir rápidamente los conocimientos en acciones.
Posteriormente, IBM puso a disposición BigInsights y BigSheets como servicio a través de su infraestructura SmartCloud Enterprise en octubre. El servicio está disponible en las ediciones Basic y Enterprise; un punto de venta importante es que los clientes pueden aprender y probar capacidades de análisis y procesamiento de big data sin comprar hardware de soporte ni experiencia en TI. Según IBM, los clientes pueden configurar un clúster Hadoop y transferir datos al clúster en menos de 30 minutos, y los cargos por procesamiento de datos comienzan en 60 centavos por hora por clúster.
Informatica 9.1: Convertir los desafíos de Big Data en grandes oportunidades
Informatica fue un paso más allá el pasado mes de octubre cuando lanzó HParser, un entorno de transformación de datos optimizado. para Hadoop. Según Informatica, el software admite el procesamiento flexible y eficiente de cualquier formato de archivo en Hadoop, proporcionando a los desarrolladores de Hadoop capacidades de análisis listas para usar para procesar fuentes de datos complejas y diversas, incluidos registros, documentos, datos binarios o datos jerárquicos. así como numerosos formatos estándar de la industria (como NACHA en la industria bancaria, SWIFT en la industria de pagos, FIX en la industria de datos financieros y ACORD en la industria de seguros).
Así como la tecnología de procesamiento en bases de datos acelera varios métodos de análisis, Informatica también está agregando código de análisis en Hadoop para aprovechar toda esta potencia de procesamiento y pronto agregará otro código de procesamiento de datos.
Informatica HParser es la última incorporación a la familia de productos Informatica B2B Data Exchange y a la plataforma Informatica, diseñada para satisfacer la creciente demanda de extracción de valor empresarial a partir de cantidades masivas de datos no estructurados. El año pasado, Informatica lanzó con éxito la innovadora Informatica 9.1 para Big Data, que es la primera plataforma de integración de datos unificada del mundo creada específicamente para big data.
Oracle Big Data Appliance - Oracle Big Data Appliance
El sistema integrado Big Data Appliance de Oracle incluye el software de gestión del sistema Hadoop de Cloudera y los servicios de soporte Apache Hadoop y Cloudera Manager . Oracle ve Big Data Appliance como un "sistema de construcción" que incluye Exadata, Exalogic y Exalytics In-Memory Machine. Oracle Big Data Appliance es un sistema integrado de software y hardware que integra la distribución de Cloudera, incluidos Apache Hadoop, Cloudera Manager y un R de código abierto en el sistema. La máquina de big data utiliza el sistema operativo Oracle Linux y está equipada con la versión comunitaria de la base de datos Oracle NoSQL y la máquina virtual Oracle HotSpot Java. Big Data Appliance es un producto de arquitectura completa con 864 GB de almacenamiento por arquitectura, 216 núcleos de CPU, 648 TBRAW de almacenamiento y conexión InifiniBand de 40 GB por segundo. El Big Data Appliance se vende por 450.000 dólares y la tarifa anual de soporte de hardware y software es del 12%.
Oracle Big Data Appliance rivaliza con EMC Data Computing Appliance. IBM también lanzó InfoSphere BigInsights, una plataforma de software de análisis de datos. Microsoft también anunció el lanzamiento de la plataforma de procesamiento de datos a gran escala SQL Server 2012 basada en Hadoop. 2012.
Introducción detallada a los métodos de análisis estadístico y software estadístico
¿Cuáles son los métodos de análisis estadístico? A continuación lo desarrollaremos e introduciremos algunos programas de análisis estadístico de uso común.
1. Método de análisis comparativo de indicadores Método de análisis comparativo de indicadores
Ocho métodos de análisis estadístico 1. Método de análisis comparativo de indicadores El método de análisis comparativo de indicadores, también conocido como método de análisis comparativo, es un método estadístico. El método de análisis es el método más utilizado. Es un método para reflejar las diferencias y cambios en la cantidad de cosas mediante la comparación de indicadores relevantes. Sólo por comparación podemos identificarnos. La observación de algunos indicadores por sí sola sólo puede explicar ciertas características cuantitativas del conjunto, y no se puede llegar a una comprensión concluyente una vez comparados, como con países extranjeros y unidades extranjeras, con datos históricos y con planes, la escala se puede emitir juicios y; Evaluaciones basadas en tamaño, nivel y velocidad.
El análisis de indicadores y los métodos de análisis comparativo se pueden dividir en comparación estática y análisis comparativo dinámico. La comparación estática es la comparación de diferentes indicadores generales en las mismas condiciones de tiempo, como la comparación entre diferentes departamentos, diferentes regiones y diferentes países, también llamada comparación dinámica horizontal, que es la comparación de valores de indicadores en diferentes; períodos bajo las mismas condiciones generales, lo que también se denomina comparación vertical. Estos dos métodos se pueden utilizar solos o en combinación. Al realizar un análisis comparativo, puede utilizar indicadores totales, indicadores relativos o indicadores promedio solos, o puede combinarlos para compararlos. Los resultados de la comparación se pueden expresar mediante números relativos, como porcentajes, múltiplos, coeficientes, etc., o mediante el número absoluto de la diferencia y los puntos porcentuales relevantes (cada 1% es un punto porcentual), es decir, restando el comparado. indicadores.
2. Método de análisis de agrupación Método de análisis comparativo de índices
Método de análisis de agrupación Método de análisis comparativo de índices, pero las unidades que componen la población estadística tienen variedad de características, lo que hace que sean iguales. población Hay muchas diferencias entre las unidades dentro del alcance El análisis estadístico no solo debe analizar las características cuantitativas generales y las relaciones cuantitativas, sino también realizar un análisis grupal en profundidad dentro de la población general. El método de análisis de agrupación consiste en dividir la población de estudio en varias partes según uno o varios signos según el propósito del análisis estadístico, organizarlas, observarlas y analizarlas, y revelar sus conexiones y regularidades internas.
La cuestión clave en el método de agrupación estadística es la correcta selección de los valores de agrupación y la delimitación de los límites de cada grupo.
3. Series temporales y método de análisis dinámico
Series temporales. Es una serie de valores que cambian y se desarrollan en el tiempo para un mismo indicador, y están ordenados en orden cronológico para formar una secuencia temporal, también conocida como secuencia dinámica.
Puede reflejar el desarrollo y los cambios de los fenómenos sociales y económicos. Mediante la preparación y el análisis de series temporales, se pueden encontrar las reglas de cambio dinámico y proporcionar una base para predecir tendencias de desarrollo futuras. Las series de tiempo se pueden dividir en series de tiempo absolutas, series de tiempo relativas y series de tiempo promedio.
Indicador de velocidad de series temporales. Los indicadores de velocidad que se pueden calcular en función de series de tiempo absolutas incluyen la velocidad de desarrollo, la velocidad de crecimiento, la velocidad promedio de desarrollo y la velocidad promedio de crecimiento.
Método de análisis dinámico. En el análisis estadístico, es difícil emitir un juicio si sólo existe un valor de indicador aislado para un período. Si se compila una serie de tiempo, se puede realizar un análisis dinámico para reflejar las reglas cambiantes de su nivel y velocidad de desarrollo.
Al realizar un análisis dinámico, preste atención a la comparabilidad de cada indicador en la secuencia. El alcance general, el método de cálculo del indicador, el precio calculado y la unidad de medida deben ser coherentes. Los intervalos de tiempo generalmente deben ser consistentes, pero también se pueden adoptar diferentes intervalos según el propósito de la investigación, por ejemplo, por períodos históricos. Para eliminar la incomparabilidad de los valores de los indicadores causada por diferentes intervalos de tiempo, se pueden utilizar el promedio anual y la velocidad de desarrollo promedio anual para compilar series dinámicas. Además, en las estadísticas, muchos indicadores integrales utilizan formas de valor para reflejar totales físicos, como el producto interno bruto, la producción industrial bruta, las ventas minoristas totales de bienes sociales, etc. Al calcular la velocidad de desarrollo en diferentes años, la influencia de los cambios de precios deben eliminarse para reflejar correctamente los cambios en las cantidades físicas. Es decir, el valor de los mismos productos en diferentes años debe calcularse utilizando precios comparables (como precios constantes o ajustes de índices de precios) antes de poder realizar la comparación.
Para observar la trayectoria de fluctuación del desarrollo económico de mi país, la velocidad de desarrollo del PIB en cada año se puede compilar en una serie de tiempo y dibujar en un gráfico de curvas para proporcionar una comprensión intuitiva.
IV.Método de análisis del índice
El índice se refiere al número relativo que refleja los cambios en los fenómenos sociales y económicos. Hay sentidos amplios y estrechos. Dependiendo del alcance de la investigación del índice, se puede dividir en índice individual, índice de categoría e índice total.
Las funciones del índice: en primer lugar, puede reflejar de manera integral la dirección y el grado de los cambios cuantitativos generales en fenómenos socioeconómicos complejos; en segundo lugar, puede analizar en qué medida se producen los cambios totales en un determinado socio; -Los fenómenos económicos se ven afectados por cambios en varios factores, este es un método de análisis factorial. El método de operación es: a través de la relación cuantitativa en el sistema de índice, suponiendo que otros factores permanezcan sin cambios, observar el impacto de un cambio en un determinado factor en el cambio total.
Análisis factorial mediante índices. El análisis factorial consiste en descomponer el objeto de investigación en varios factores y considerar el objeto de investigación general como el resultado de los cambios de cada factor. A través del análisis de cada factor, se determina el grado de influencia de cada factor en el cambio total del objeto de investigación. se mide. El análisis factorial se puede dividir en análisis factorial de cambios en los indicadores totales y análisis factorial de cambios en los indicadores promedio según los diferentes indicadores estadísticos de los objetos estudiados.
5. Método de análisis de equilibrio
El análisis de equilibrio es un método para estudiar la relación recíproca entre los cambios cuantitativos en los fenómenos sociales y económicos. Organiza los dos lados de la unidad de los opuestos uno por uno según sus elementos constitutivos, dando a las personas un concepto general, a fin de facilitar la observación general de la relación equilibrada entre ellos. En la vida económica existen relaciones equilibradas que van desde las operaciones macroeconómicas nacionales hasta los ingresos y gastos económicos personales. Existen muchos tipos de balances, como el balance fiscal, el balance laboral, el balance energético, la balanza de pagos internacionales, el balance input-output, etc. Las funciones del análisis de equilibrio son: en primer lugar, reflejar el equilibrio de los fenómenos sociales y económicos en términos de equivalencia cuantitativa y analizar la compatibilidad de diversas relaciones proporcionales; en segundo lugar, revelar los factores desequilibrados y el potencial de desarrollo; en tercer lugar, utilizar relaciones de equilibrio; analizar varios aspectos de la estimación de indicadores individuales desconocidos entre indicadores conocidos.
6. Análisis de evaluación integral
Los fenómenos de análisis socioeconómico suelen ser complicados. Las condiciones de funcionamiento socioeconómico son el resultado de los efectos combinados de múltiples factores, y de la dirección y grado de cambio de cada uno. factor es diferente. Por ejemplo, la evaluación de las operaciones macroeconómicas involucra todos los aspectos de la vida, la distribución, la circulación y el consumo; la evaluación de los beneficios económicos corporativos involucra la utilización racional de las personas, las finanzas, los materiales y las ventas en el mercado. Si se utiliza un solo indicador, será difícil hacer una evaluación adecuada.
La evaluación integral incluye cuatro pasos:
1. Determinar el sistema de índice de evaluación, que es la base y fundamento de la evaluación integral. Preste atención a la exhaustividad y sistematicidad del sistema de indicadores.
2. Recopilar datos y procesar los valores del indicador en diferentes unidades de medida con la misma medida. Se pueden utilizar métodos como el procesamiento de relativización, el procesamiento funcional y el procesamiento de estandarización.
3. Determinar el peso de cada indicador para asegurar el carácter científico de la evaluación. Dependiendo del estado de cada indicador y del grado de su impacto general, es necesario asignar diferentes ponderaciones a los diferentes indicadores.
4. Resuma los indicadores, calcule la puntuación integral y realice una evaluación integral en base a ella.
7. Análisis de prosperidad
Las fluctuaciones económicas existen objetivamente y son difíciles de evitar por completo para cualquier país. Cómo evitar grandes fluctuaciones económicas y mantener un desarrollo económico estable siempre ha sido una cuestión importante que enfrentan los gobiernos y los expertos económicos en el control macroeconómico y la toma de decisiones. El análisis de la prosperidad nació y se desarrolló para cumplir con este requisito. El análisis del auge es un análisis de evaluación integral, que se puede dividir en análisis del auge macroeconómico y análisis de encuestas del auge corporativo.
Análisis del clima macroeconómico.
La Oficina Nacional de Estadísticas comenzó a establecer un sistema de indicadores de seguimiento y un método de evaluación a finales de los años 1980. Después de más de diez años y de mejoras continuas, se formó un sistema para proporcionar informes periódicos de análisis empresarial y servir como barómetro y alarma para la situación macroeconómica. estado de funcionamiento facilita que el Consejo de Estado y los departamentos pertinentes tomen medidas de macrocontrol de manera oportuna. Evite los altibajos económicos con pequeños ajustes regulares.
Estudio y análisis de clima empresarial. Adopta un método de encuesta por muestreo en varias empresas grandes y medianas de todo el país y utiliza un cuestionario para permitir que la persona a cargo de la empresa responda juicios y expectativas de situación relevantes. El contenido se divide en dos categorías: una es el juicio y las expectativas de la macroeconomía general; la otra es el juicio y las expectativas de las condiciones operativas de la empresa, como los pedidos de productos, las compras de materias primas, los precios, los inventarios, el empleo y la demanda del mercado. , inversión en activos fijos, etc.
8. Análisis de previsiones
La toma de decisiones macroeconómicas y la toma de decisiones microeconómicas no sólo requieren la comprensión de la situación real que se ha producido en la operación económica, sino también la necesidad de prever lo que sucederá. sucederá en el futuro. Predecir el futuro basándose en el pasado y el presente conocidos es un análisis predictivo.
La previsión estadística es una previsión cuantitativa, que se basa principalmente en el análisis de datos y combina el análisis cualitativo en la previsión. Los métodos de pronóstico estadístico se pueden dividir a grandes rasgos en dos categorías: uno se basa principalmente en la dependencia entre los cambios en las series de tiempo del indicador y el tiempo, y el otro se basa en la relación causal entre indicadores. .
Los métodos de análisis de previsión incluyen análisis de regresión, método de media móvil, método de suavizado exponencial, análisis de cambios periódicos (estacionales) y análisis de cambios aleatorios, etc. Un análisis predictivo más complejo requiere el establecimiento de un modelo econométrico, y existen muchos métodos para resolver los parámetros del modelo.