Cómo extraer datos en la era del big data
Como todos sabemos, la minería de big data en la era del big data se ha convertido en un tema candente en todos los ámbitos de la vida.
En primer lugar, la minería de datos
En la era del big data, la generación y recopilación de datos son la base, y se puede decir que la minería de datos es la clave. ser el trabajo más crítico y básico de big data. En términos generales, la minería de datos (DataMining), también conocida como minería de datos, o descubrimiento de conocimiento a partir de datos, se refiere a la ingeniería y el proceso sistemático de extracción de información y patrones ocultos, previamente desconocidos pero potencialmente útiles, a partir de grandes cantidades de datos.
Diferentes académicos tienen diferentes comprensiones de la minería de datos, pero personalmente creo que las características de la minería de datos incluyen principalmente los siguientes cuatro aspectos:
1. La combinación de teoría y aplicación: datos. minería Es la combinación perfecta de algoritmos teóricos y práctica aplicada. La minería de datos proviene de las necesidades de las aplicaciones en la producción y la vida reales, y los datos extraídos provienen de aplicaciones específicas. Al mismo tiempo, el conocimiento descubierto mediante la extracción de datos debe aplicarse en la práctica para ayudar en la toma de decisiones real. Por lo tanto, la minería de datos se origina y sirve a la práctica aplicada. Los datos son fundamentales y la minería de datos debe estar orientada a los datos. El diseño y desarrollo de los algoritmos involucrados debe tener en cuenta las necesidades de las aplicaciones prácticas, abstraer y generalizar el problema, aplicar buenos algoritmos a la práctica y probarlos en la práctica.
2. Proceso de ingeniería: La minería de datos es un proceso de ingeniería que consta de múltiples pasos. Las características de la aplicación de la minería de datos determinan que la minería de datos no es solo el análisis y la aplicación de algoritmos, sino un proceso completo que incluye la preparación y gestión de datos, el preprocesamiento y la conversión de datos, el desarrollo y la aplicación de algoritmos de minería, la visualización y verificación de resultados, la acumulación y el uso de conocimientos. Además, en aplicaciones prácticas, el proceso típico de extracción de datos es un proceso de bucle interactivo.
3. Colección de funciones: la minería de datos es una colección de múltiples funciones. Las funciones de minería de datos comúnmente utilizadas incluyen exploración y análisis de datos, minería de reglas de asociación, minería de patrones de series temporales, predicción de clasificación, análisis de conglomerados, detección de anomalías, visualización de datos y análisis de enlaces. Un caso de aplicación específico implica a menudo muchas funciones diferentes. Las diferentes funciones suelen tener diferentes fundamentos teóricos y técnicos, y cada función tiene un soporte de algoritmo diferente.
4. Un campo interdisciplinario: la minería de datos es un campo interdisciplinario que utiliza resultados de investigación e ideas académicas de muchos campos diferentes, como análisis estadístico, reconocimiento de patrones, aprendizaje automático, inteligencia artificial, recuperación de información y bases de datos. Al mismo tiempo, otros campos como los algoritmos estocásticos, la teoría de la información, la visualización, la computación distribuida y la optimización también desempeñan un papel importante en el desarrollo de la minería de datos. La diferencia entre la minería de datos y estos campos relacionados se puede resumir en las tres características de la minería de datos mencionadas anteriormente. La más importante es que está más centrada en las aplicaciones.
En resumen, la aplicación es una característica importante de la minería de datos, que es la clave para distinguirla de otras disciplinas. Al mismo tiempo, sus características de aplicación y otras características se complementan entre sí, lo que determina hasta cierto punto la investigación y el desarrollo de la minería de datos. También proporciona orientación sobre cómo aprender y dominar la minería de datos. Por ejemplo, desde la perspectiva de la investigación y el desarrollo, las necesidades de aplicaciones prácticas son la raíz de muchos métodos en el campo de la minería de datos. Desde el análisis inicial de datos de transacciones del cliente (análisis de la cesta de la compra), la minería de datos multimedia (minería de datos multimedia) y la minería de datos de protección de la privacidad (minería de datos de protección de la privacidad), hasta la minería de datos de texto (minería de texto) y la minería web (minería web), y luego, a la minería de redes sociales (minería de redes sociales), todo está impulsado por aplicaciones. La ingeniería y la agregación determinan la universalidad del contenido y la dirección de la investigación de minería de datos. Entre ellos, la ingeniería hace que los diferentes pasos de todo el proceso de investigación pertenezcan al ámbito de investigación de la minería de datos. La totalidad hace que la minería de datos tenga muchas funciones diferentes. La forma de conectar y combinar estas funciones afecta hasta cierto punto el desarrollo de los métodos de investigación de la minería de datos. Por ejemplo, a mediados de la década de 1990, la investigación de minería de datos se centró principalmente en la extracción de reglas de asociación y patrones de series temporales. A finales de la década de 1990, los investigadores comenzaron a estudiar algoritmos de clasificación basados en reglas de asociación y patrones de series de tiempo (como la clasificación basada en asociaciones), combinando orgánicamente dos funciones diferentes de minería de datos. A principios del siglo XX, el aprendizaje semisupervisado y la agrupación semisupervisada eran temas de investigación candentes. También combinaban orgánicamente las dos funciones de clasificación y agrupación. En los últimos años, algunas otras direcciones de investigación, como la agrupación subespacial (la combinación de extracción de características y agrupación) y la clasificación de gráficos (la combinación de minería y clasificación de gráficos), también vinculan y combinan múltiples funciones. Finalmente, el cruce conduce a la diversificación de las ideas de investigación y los diseños de métodos.
Lo que mencioné anteriormente es el impacto de las características de la minería de datos en el desarrollo y los métodos de investigación. Además, estas características de la minería de datos brindan orientación sobre cómo aprender y dominar la minería de datos, y también brindan cierta orientación para la capacitación de estudiantes de posgrado y pregrado. Por ejemplo, al guiar la minería de datos, la aplicación debe estar familiarizada con el negocio y los requisitos de la aplicación. Los requisitos son el propósito de la minería de datos. La estrecha integración de negocios, algoritmos y tecnología es muy importante. Sólo comprendiendo el negocio y captando las necesidades podremos analizar los datos y aprovechar su valor. Por lo tanto, lo que se necesita en aplicaciones prácticas son talentos que comprendan los algoritmos tanto comerciales como de minería de datos. La ingeniería determina que dominar la minería de datos requiere ciertas capacidades de ingeniería.
Un buen minero de datos es, ante todo, un ingeniero con una gran capacidad para procesar datos a gran escala y desarrollar sistemas prototipo, lo que equivale a la importancia de la capacidad de procesamiento de datos y la capacidad de programación en la formación de ingenieros de minería de datos. El carácter colectivo hace necesario acumular diferentes funciones y varios algoritmos en la parte inferior a la hora de aplicar la minería de datos. La intersección determina que al aprender minería de datos, se debe tomar la iniciativa para comprender y aprender ideas y tecnologías en campos relacionados.
Entonces, estas características son todas características de la minería de datos. La minería de datos se puede resumir y aprender a través de estas cuatro características.
2. Características del big data
El término big data se utiliza a menudo para describir y referirse a las cantidades masivas de información generadas en la era de la explosión informativa. La importancia de estudiar big data es descubrir y comprender el contenido de la información y la relación entre información e información. Para estudiar big data, primero debemos aclarar y comprender las características y conceptos básicos de big data, y luego podremos comprender y comprender big data.
Para estudiar big data es necesario entender primero sus características y conceptos básicos. La industria generalmente cree que big data tiene características estándar de "4V":
1. Volumen: la cantidad de datos es enorme y ha saltado del nivel de TB al nivel de PB.
2. Diversidad: Hay muchos tipos de datos, como registros web, vídeos, imágenes, información geográfica, etc.
3. Velocidad: La velocidad de procesamiento es rápida y el análisis es en tiempo real, lo que es esencialmente diferente de la tecnología tradicional de minería de datos.
4. Valor: baja densidad de valor y alto valor efectivo. La utilización razonable y el análisis correcto y preciso de datos de valor de baja densidad aportarán un enorme valor empresarial y social.
Las características "4V" anteriores describen las principales diferencias entre big data y "small data" muestreados en el pasado. Sin embargo, la práctica es la única manera de aprovechar el valor máximo de los big data. Desde la perspectiva de las aplicaciones prácticas y la complejidad del procesamiento de big data, big data también tiene las siguientes nuevas características "4V":
5. Variabilidad: la estructura y el significado de los datos pueden cambiar en diferentes escenarios y en diferentes escenarios. diferentes situaciones según los objetivos de la investigación. Por lo tanto, se deben considerar contextos específicos en la investigación práctica.
6. Autenticidad: Obtener datos reales y fiables es el requisito previo para garantizar que los resultados del análisis sean precisos y eficaces. Sólo con datos verdaderos y precisos se pueden lograr resultados verdaderamente significativos.
7. Volatilidad/varianza: dado que los datos en sí contienen ruido y el proceso de análisis no está estandarizado, diferentes algoritmos o diferentes procesos y métodos de análisis conducirán a resultados de análisis inestables.
8. Visualización: En un entorno de big data, la visualización de datos puede explicar el significado de los datos de forma más intuitiva, ayudando a comprender los datos e interpretar los resultados.
En resumen, las características de "8V" anteriores tienen una gran importancia rectora en el análisis y la minería de datos de big data.
3. Minería de datos en la era del big data
En la era del big data, la minería de datos debe considerar las siguientes cuatro cuestiones:
El núcleo y esencia de la minería de big data Es una combinación orgánica de aplicaciones, algoritmos, datos y plataformas.
Debido a que la minería de datos está impulsada por las aplicaciones y proviene de la práctica, se generarán datos masivos en las aplicaciones. Debe estar impulsado por datos de aplicaciones específicas y respaldado por algoritmos, herramientas y plataformas y, en última instancia, el conocimiento y la información descubiertos se pueden aplicar en la práctica para proporcionar información cuantitativa, razonable, factible y valiosa.
La extracción de información útil oculta en big data requiere el diseño y desarrollo de los correspondientes algoritmos de aprendizaje y extracción de datos. El diseño y desarrollo de algoritmos deben estar impulsados por datos de aplicaciones específicas y deben aplicarse y verificarse en problemas reales. La implementación y aplicación del algoritmo requiere una plataforma de procesamiento eficiente que pueda resolver el problema de fluctuación. Una plataforma de procesamiento eficiente requiere un análisis eficaz de datos masivos, una integración oportuna de múltiples datos, un fuerte soporte para la implementación de algoritmos y la visualización de datos a través de la digitalización y la estandarización del proceso de análisis de datos.
En resumen, la idea de combinar aplicaciones, algoritmos, datos y plataformas es un refinamiento integral de la comprensión y el conocimiento de la minería de datos en la era del big data y encarna la esencia y el núcleo de los datos. Minería en la era del big data. Estos cuatro aspectos son también la integración y arquitectura de la investigación correspondiente. Estas cuatro arquitecturas se desarrollan específicamente a partir de los siguientes cuatro niveles:
Aplicación: relacionada con la recopilación de datos y la verificación de algoritmos, la cuestión clave es comprender la semántica relacionada. a la aplicación y al conocimiento del dominio.
Capa de datos: La gestión, almacenamiento, acceso y seguridad de los datos, implicando cómo utilizarlos de manera eficiente.
Capa de algoritmo: Se trata principalmente del diseño e implementación de algoritmos como minería de datos, aprendizaje automático y algoritmos aproximados.
Capa de plataforma (infraestructura): acceso y cálculo de datos, la plataforma informática procesa datos distribuidos a gran escala.
En resumen, los algoritmos de minería de datos se dividen en múltiples niveles y cada nivel tiene diferentes contenidos de investigación. Podemos ver las principales direcciones de investigación en la minería de datos actual, como el uso de tecnología de fusión de datos para preprocesar datos dispersos, heterogéneos, inciertos, incompletos y de múltiples fuentes, extrayendo pruebas dinámicas complejas obtenidas a través del aprendizaje local y la fusión de modelos de conocimiento global; retroalimentar la información relevante a la etapa de preprocesamiento y distribuir los datos en paralelo para lograr una utilización efectiva.
Cuarto, desarrollar un sistema de minería de big data
1. Objetivos previos
Con el advenimiento de la era del big data, la escala y la complejidad de los datos se están disparando. El crecimiento ha llevado a los analistas de datos en diferentes campos de aplicación a utilizar técnicas de minería de datos para analizar datos. En campos de aplicación, como atención médica, fabricación de alta gama, finanzas, etc.
Las tareas típicas de minería de datos a menudo requieren una configuración de subtareas compleja, la integración de diferentes tipos de algoritmos de minería y una operación eficiente en un entorno informático distribuido. Por lo tanto, en la era del big data, es imperativo desarrollar y establecer una plataforma informática y herramientas para ayudar a los analistas de datos en los campos de aplicación a realizar tareas de análisis de datos de manera efectiva.
Como se mencionó anteriormente, una minería de datos tiene múltiples tareas, múltiples funciones y diferentes algoritmos de minería, y requiere una plataforma eficiente. Por lo tanto, la tarea urgente de la minería y aplicación de datos en la era del big data es desarrollar y establecer plataformas y herramientas informáticas para ayudar a los analistas de datos en el campo de las aplicaciones a realizar tareas de análisis de datos de manera efectiva.
2. Productos relacionados
Las herramientas de minería de datos existentes
Weka, SPSS y SQLServer proporcionan interfaces amigables para el análisis del usuario. Sin embargo, estas herramientas no son adecuadas para el análisis de datos a gran escala y es difícil para los usuarios agregar nuevos programas de algoritmos cuando las utilizan.
Bibliotecas de algoritmos de minería de datos populares
Como Mahout, MLC++ y MILK. Estas bibliotecas de algoritmos proporcionan una gran cantidad de algoritmos de minería de datos. Sin embargo, estas bibliotecas de algoritmos requieren habilidades de programación avanzadas para la configuración de tareas y la integración de algoritmos.
Algunos productos integrados de minería de datos han surgido recientemente.
Como Radoop y BC-PDM, que proporcionan interfaces de usuario amigables para configurar rápidamente tareas de minería de datos. Sin embargo, estos productos se basan en el marco Hadoop y tienen un soporte muy limitado para programas de algoritmos que no son Hadoop. La asignación de recursos en situaciones de múltiples tareas y múltiples usuarios no se aborda explícitamente.
3.FIU Miner
Para resolver las limitaciones de las herramientas y productos existentes en la minería de big data, nuestro equipo desarrolló una nueva plataforma: FIU-MINER, que representa una tecnología rápida, Sistema de minería de datos integrado y fácil de usar en un entorno distribuido. Es un sistema de minería de datos fácil de usar que admite una computación eficiente y una rápida integración en entornos distribuidos. En comparación con las plataformas de minería de datos existentes, FIU-Miner proporciona un nuevo conjunto de funciones que pueden ayudar a los analistas de datos a realizar diversas tareas complejas de minería de datos de manera conveniente y efectiva.
En comparación con las plataformas tradicionales de minería de datos, proporciona algunas funciones nuevas, principalmente en los siguientes aspectos:
A. Configuración de tareas de minería de datos fácil de usar, humanizada y rápida. Basado en el modelo de "software como servicio", FIU-Miner oculta detalles subyacentes irrelevantes para las tareas de análisis de datos. A través de la interfaz de usuario humanizada proporcionada por FIU-Miner, los usuarios pueden ensamblar directamente los algoritmos existentes en un flujo de trabajo sin escribir ningún código y pueden completar fácilmente la configuración de tareas de un problema complejo de minería de datos.
B. Integración flexible de programas en varios idiomas. Permite a los usuarios importar algoritmos de minería de datos de última generación directamente a la biblioteca de algoritmos del sistema para ampliar y administrar el conjunto de herramientas de análisis. Al mismo tiempo, debido a que FIU-Miner puede asignar correctamente tareas a nodos informáticos con entornos de ejecución adecuados, estos algoritmos importados no tienen restricciones de idioma.
C. Gestión eficaz de recursos en entornos heterogéneos. FIU-Miner admite la ejecución de tareas de minería de datos en entornos informáticos heterogéneos, incluidas estaciones de trabajo gráficas, computadoras individuales y servidores. FIU-Miner considera de manera integral varios factores (incluida la implementación de algoritmos, el equilibrio de carga del servidor y la ubicación de los datos) para optimizar la utilización de los recursos informáticos.
D. Planificación y ejecución efectiva.
La arquitectura de la aplicación incluye la capa de interfaz de usuario, la capa de gestión de tareas y sistemas, la capa de recursos lógicos y la capa de recursos físicos heterogéneos. Esta arquitectura en capas considera completamente el almacenamiento distribuido de datos masivos, la integración de diferentes algoritmos de minería de datos, la configuración de tareas múltiples y las funciones de entrega de los usuarios del sistema. Las tareas típicas de minería de datos requieren configuraciones complejas de tareas principales e integran muchos tipos diferentes de algoritmos de minería en sus aplicaciones. Por lo tanto, desarrollar y establecer dichas plataformas y herramientas informáticas para respaldar el análisis eficaz por parte de los analistas de datos en los campos de aplicación es una tarea importante en la minería de big data.
El sistema FIU-Miner se utiliza en diferentes aspectos como la fabricación de alta gama, la gestión inteligente de almacenes y el procesamiento de datos espaciales. TerraFly GeoCloud es una plataforma basada en el sistema TerraFly que admite varios análisis de datos espaciales en línea. Proporciona consulta de datos espaciales similar a SQL y lenguaje de minería MapQL. No solo admite declaraciones similares a SQL, sino que también puede extraer, representar y dibujar datos espaciales de acuerdo con las diferentes necesidades de los usuarios. Al crear un flujo de trabajo de análisis de datos espaciales, se optimiza el proceso de análisis y se mejora la eficiencia del análisis.
La fabricación se refiere al proceso de producción industrial de procesamiento a gran escala de materias primas en productos terminados. La manufactura de alta gama se refiere a industrias emergentes con alto contenido tecnológico, alto valor agregado y fuerte competitividad. Las industrias manufactureras típicas de alta gama incluyen la producción de semiconductores electrónicos, la fabricación de instrumentos de precisión y los productos biofarmacéuticos. Estas áreas de fabricación a menudo implican un diseño de ingeniería riguroso, líneas de producción de ensamblaje complejas, una gran cantidad de equipos de procesamiento y parámetros de proceso controlados, un control preciso del proceso y especificaciones estrictas de materiales. El rendimiento y la calidad dependen en gran medida de las decisiones de optimización y control de procesos. Por lo tanto, las empresas manufactureras no escatiman esfuerzos para tomar diversas medidas para optimizar el proceso de producción, optimizar los parámetros de control, mejorar la calidad y la producción del producto, mejorando así la competitividad de la empresa.
En términos de procesamiento de datos espaciales, TerraFly GeoCloud analiza diversos datos espaciales en línea. Para el análisis de datos tradicional, la dificultad radica en la dificultad de escribir declaraciones MapQL, las complejas relaciones entre tareas y la baja eficiencia del intercambio de datos espaciales entre ejecuciones secuenciales. FIU-Miner puede resolver eficazmente las tres dificultades anteriores.
En resumen, las características complejas del big data han planteado nuevos requisitos y desafíos para la teoría de la minería de datos y la investigación de algoritmos. Big data es un fenómeno cuyo núcleo es extraer la información potencial contenida en los datos y hacerla útil. La minería de datos es una combinación perfecta de técnicas teóricas y aplicaciones prácticas. La minería de datos es un ejemplo de combinación de teoría y práctica.