Red de Respuestas Legales - Derecho de bienes - ¿Cuáles son las empresas en China que ofrecen soluciones de big data?

¿Cuáles son las empresas en China que ofrecen soluciones de big data?

Con el advenimiento de la "era de los grandes datos", las empresas están prestando cada vez más atención al papel de los datos y el valor que los datos aportan a las empresas está aumentando. Este artículo presentará las oportunidades y desafíos que los big data brindan a las empresas, así como las soluciones de big data empresarial.

El primer paso es entender qué es big data. No se trata simplemente de datos masivos o datos masivos, sino de una mina de oro de datos con características de 4V. Él traerá oportunidades y desafíos a nuestro negocio.

El segundo paso es analizar qué capacidades debería tener la plataforma de big data empresarial para hacer frente a los desafíos del big data en función de las características del big data.

La tercera parte, basada en las necesidades de la plataforma de big data, propone una solución técnica para big data empresarial y presenta cómo esta solución resuelve los problemas de big data.

Finalmente, permítanme analizar los problemas actuales de las aplicaciones de big data y cómo se desarrollarán en el futuro.

¿Qué es el big data?

Desde el punto de vista de los datos, big data no es simplemente grande sino abundante. Big data está listo para salir, pero tiene las características de 4V. En pocas palabras, es grande, tiene muchos estilos, es rápido y tiene un valor bajo.

Volumen de big data: el último informe de investigación muestra que para 2020, se espera que el uso global de datos aumente 44 veces a 35,2 ZB. Cuando hablamos de big data, el volumen general de datos empresariales debe alcanzar el nivel de PB. Se le puede llamar big data.

Muchos estilos: Además de grandes cantidades, big data también incluye datos estructurados y no estructurados, correos electrónicos, Word, imágenes, información de audio, información de video y otros tipos de datos. Esto es algo que las bases de datos relacionales anteriores. podría resolver.

Velocidad: De lo que estamos hablando aquí es de la velocidad de recopilación de datos. Con el desarrollo del comercio electrónico, las oficinas móviles, los dispositivos portátiles, el Internet de las cosas, las comunidades inteligentes, etc., la velocidad de generación de datos ha evolucionado al segundo nivel. Las empresas requieren recopilación de datos y toma de decisiones en tiempo real.

Valor bajo: se refiere a la densidad de valor. El valor de todos los datos es cada vez mayor. Sin embargo, debido al crecimiento del volumen de datos, la densidad de valor de los datos también disminuirá en consecuencia. ocupan la mayoría, por lo que las empresas necesitan encontrar valor a partir de negocios masivos.

Desde la perspectiva de un desarrollador, big data es diferente de la tecnología de base de datos y la tecnología de almacenamiento de datos anteriores. Representa una serie de nuevas tecnologías encabezadas por Hadoop y Spark.

Las características distintivas de esta tecnología son: computación distribuida y en memoria.

Distribución: En pocas palabras, la distribución significa dividir tareas complejas y que requieren mucho tiempo en múltiples tareas pequeñas y procesarlas en paralelo. Las tareas aquí incluyen la recopilación de datos, el almacenamiento de datos y el procesamiento de datos.

Computación de memoria: esencialmente, la CPU lee datos directamente de la memoria en lugar del disco duro, y calcula y analiza los datos. La computación en memoria es ideal para procesar cantidades masivas de datos y datos que requieren resultados en tiempo real. Por ejemplo, casi todos los datos financieros, de marketing, de marketing y de otro tipo de una empresa en los últimos diez años se pueden almacenar en la memoria a la vez y se pueden realizar análisis de datos sobre esta base.

Minería de datos: de hecho, el núcleo del big data también debería incluir la tecnología de minería de datos, que está estrechamente relacionada con las estadísticas. Se puede dividir a grandes rasgos en cuatro categorías: clasificación, agrupación, predicción y asociación. Puede utilizar métodos matemáticos para extraer patrones potenciales o conocimiento de una gran cantidad de datos incompletos y confusos.

Requisitos de la plataforma de big data

Las capacidades de big data se dividen en cinco aspectos: recopilación de datos, almacenamiento de datos, cálculo o procesamiento de datos, extracción de datos y presentación de datos.

Recopilación de datos: se requiere la capacidad de recopilar datos masivos y en tiempo real. Este es el primer paso en la utilización de datos.

Almacenamiento de datos: en correspondencia con las características de big data, se requieren capacidades de almacenamiento de gran capacidad, alta tolerancia a fallas y alta eficiencia, que es la base para la utilización de datos.

Computación de datos: Se requieren capacidades de procesamiento de datos y computación de carga potentes, económicas y rápidas. Los datos sólidos corresponden a grandes cantidades y tipos de datos, los datos baratos de baja densidad corresponden a grandes datos y los datos rápidos corresponden a grandes datos. Esta es la clave para el desarrollo de grandes datos.

Minería de datos: ser capaz de analizar y extraer el valor de los datos desde todos los ángulos y direcciones, y hacer un buen uso de la minería de datos para transformarlos en valor es el núcleo de la utilización de los datos.

Presentación de datos: la presentación de datos multicanal, intuitiva y enriquecida es la imagen externa de los datos, lo más destacado de las aplicaciones de datos y la ventana que los usuarios pueden reconocer.

Los anteriores son los problemas que la plataforma de big data necesita resolver, las capacidades que debe tener y los requisitos de datos.

Soluciones técnicas

Las soluciones empresariales de big data se dividen en capa de recopilación de datos, capa de almacenamiento de datos, capa de cálculo de datos, capa de minería de datos y capa de presentación de datos del proceso de procesamiento de datos. resuelve los problemas clave requeridos para big data. La parte amarilla es la tecnología tradicional de procesamiento de datos.

Capa de recopilación de datos:

La tecnología de recopilación de datos se divide en recopilación en tiempo real y recopilación programada. La recopilación en tiempo real utiliza herramientas como Oracle GoldenGate para recopilar datos de forma incremental en tiempo real para garantizar la puntualidad de los datos. La recopilación programada utiliza servicios de datos de SAP combinados con otras herramientas para extraer datos periódicamente, que se utiliza principalmente para grandes cantidades de datos que no están en tiempo real. Agregue herramientas ETL distribuidas como hervidor y sqoop para enriquecer y diversificar los servicios de extracción de datos, agregar servicios Kafka, integrar datos en tiempo real y procesar grandes cantidades de datos en tiempo real.

Capa de almacenamiento de datos:

Basada en el Oracle tradicional, el área de almacenamiento de datos agrega un sistema de archivos distribuido, una base de datos de columnas distribuidas, un sistema de archivos de memoria, una base de datos de memoria, búsqueda de texto completo, etc. módulo. Entre ellos, el sistema de archivos distribuido ceph se utiliza para almacenar datos no estructurados debido a su distribución equilibrada de datos y su alto grado de paralelismo. El sistema de archivos distribuido HDFS se utiliza para almacenar otros datos estructurados debido a su buena escalabilidad y compatibilidad. La base de datos de almacenamiento de columnas hbase se utiliza principalmente para almacenar datos masivos que tienen requisitos específicos para operaciones y servicios de consulta.

Capa de computación de datos:

La capa de computación utiliza consultas SQL estándar, búsqueda de texto completo, análisis interactivo Spark, flujo de procesamiento de datos en tiempo real, procesamiento por lotes fuera de línea, Graph X y otros. tecnologías para procesar datos estructurados, datos no estructurados, datos en tiempo real y datos masivos para cálculo y procesamiento.

Ventajas del motor informático de memoria Spark, modo de cálculo central;

Procesamiento ligero y rápido.

Fácil de usar, Spark admite múltiples idiomas.

Soporta consultas complejas.

Procesamiento de transmisiones en tiempo real.

Se puede integrar con Hadoop y datos de Hadoop existentes.

¿Se puede integrar con Hive?

Capa de minería de datos: utilice herramientas de análisis como Spark_Mllib, R, Mhout, etc. para crear modelos y bibliotecas de algoritmos basados ​​en el motor de análisis de modelos. El modelo es entrenado por la biblioteca de algoritmos de modelos para generar instancias de modelo. Finalmente, las decisiones en tiempo real y fuera de línea se toman en función de instancias de modelos.

Capa de presentación de datos: proporciona métodos de análisis de datos, como presentación de portal, gráficos de datos, correos electrónicos y software de oficina. El método de presentación puede admitir pantallas grandes, computadoras de escritorio, terminales móviles, etc.

Conclusión

Con la optimización continua de las computadoras de alto rendimiento y los procesos de gestión de almacenamiento masivo de datos, los problemas que la tecnología puede resolver eventualmente no se convertirán en problemas. Hay tres vínculos que realmente restringirán o se convertirán en cuellos de botella en el desarrollo y aplicación de big data:

Primero, la legalidad de la recopilación y extracción de datos, el equilibrio entre la protección de la privacidad de los datos y las aplicaciones de privacidad de los datos.

Cuando una empresa o institución extrae datos privados de la multitud, los usuarios tienen derecho a saberlo. Cuando utilizan sus datos privados para actividades comerciales, se requiere el consentimiento de los usuarios. Sin embargo, actualmente en China e incluso en todo el mundo, una serie de cuestiones de gestión, como cómo proteger la privacidad del usuario, cómo formular reglas comerciales, cómo castigar a quienes violan la privacidad del usuario y cómo formular regulaciones legales, van a la zaga del desarrollo de grandes datos. En el futuro, muchas empresas de big data permanecerán en la zona gris en las primeras etapas de desarrollo. Cuando las operaciones comerciales comiencen a tomar forma y comiencen a afectar a un gran número de consumidores y empresas, las leyes, regulaciones y normas de mercado pertinentes se verán obligadas a formularse a un ritmo acelerado. Se puede esperar que, aunque las aplicaciones de la tecnología big data pueden ser infinitas, debido a las limitaciones de la recopilación de datos, los datos que pueden usarse para aplicaciones comerciales y servir a las personas son muchos menos que los datos que teóricamente pueden recopilar y procesar big data. . La recopilación limitada de fuentes de datos * *limitará la aplicación comercial de big data.

En segundo lugar, la colaboración de big data requiere que las empresas en todos los aspectos de la cadena industrial logren un equilibrio entre competencia y cooperación.

Big data plantea más requisitos de cooperación para las empresas en función de su ecosistema. Sin una comprensión macro de toda la cadena industrial, una sola empresa no puede comprender la relación entre los datos en cada eslabón de la cadena industrial basándose en sus propios datos independientes, y su juicio y su impacto en los consumidores también son muy limitados.

En algunas industrias con una evidente asimetría de información, como la banca y los seguros, la necesidad de compartir datos entre empresas es aún más urgente. Por ejemplo, las industrias bancaria y de seguros generalmente necesitan establecer una base de datos específica de la industria para permitir a sus miembros comprender los registros crediticios de los usuarios individuales, eliminar la asimetría de información entre el garante y el consumidor y hacer que las transacciones se realicen sin problemas. Sin embargo, en muchos casos, la competencia y la cooperación existen simultáneamente entre estas empresas que necesitan disfrutar de información. Antes de que las empresas disfruten de los datos, deben sopesar los pros y los contras para evitar perder una ventaja competitiva mientras disfrutan de los datos. Además, cuando muchos comerciantes cooperan, es fácil formar una alianza de vendedores, lo que dañará los intereses de los consumidores y afectará la equidad de la competencia. La dirección de desarrollo más imaginativa de big data es integrar datos de diferentes industrias, proporcionar una gama completa de representación de datos tridimensionales e intentar comprender y remodelar las necesidades de los usuarios desde una perspectiva sistemática. Pero compartir datos entre industrias requiere equilibrar los intereses de demasiadas empresas. Sin una organización externa neutral que coordine la relación entre todas las empresas participantes y establezca reglas para el * * * * de los datos, el uso de big data será limitado. La falta de una institución neutral y autorizada impedirá que los big data alcancen su máximo potencial.

En tercer lugar, la interpretación y aplicación de las conclusiones del big data.

Los big data pueden revelar posibles correlaciones entre variables desde el nivel de análisis de datos, pero ¿cómo se refleja la correlación a nivel de datos en la práctica de la industria? ¿Cómo sacar conclusiones sobre la aplicación de big data en soluciones viables? Estos problemas requieren que los ejecutivos no sólo sean capaces de interpretar big data sino también comprender las relaciones entre varios elementos del desarrollo de la industria. Este vínculo se basa en el desarrollo de la tecnología big data, pero también involucra varios factores como la gestión y la ejecución. En este vínculo, el factor humano se convierte en la clave del éxito. Desde una perspectiva técnica, los ejecutivos deben comprender la tecnología de big data y poder interpretar las conclusiones del análisis de big data; desde una perspectiva industrial, los ejecutivos deben tener una buena comprensión de la relación entre los procesos de varios eslabones de producción en la industria; así como las relaciones entre varios factores, se deben hacer posibles correlaciones para hacer coincidir las conclusiones extraídas de big data con los vínculos de ejecución específicos de la industria desde una perspectiva de gestión, los ejecutores deben desarrollar una solución ejecutable para el problema y garantizar que así sea; La solución es consistente con el proceso de gestión. No hay conflicto y no se crean nuevos problemas mientras se resuelven los problemas. Estos requisitos no solo requieren que el ejecutor sea competente en tecnología, sino también un excelente administrador con pensamiento sistémico y capaz de ver la relación entre big data y la industria desde la perspectiva de sistemas complejos. La escasez de tales talentos restringirá el desarrollo de big data.