¿Qué son los macrodatos?
Noticias del Portal de Desarrollo de China Con el rápido desarrollo y la aplicación profunda de la tecnología de la información de nueva generación, la cantidad y escala de los datos continúan expandiéndose. Compite con varios países y regiones por recursos importantes. Quien tome la iniciativa y el dominio en los datos ganará el futuro. La administración Obama define los datos como "el nuevo petróleo del futuro" y cree que la escala, la actividad y la capacidad de interpretar y aplicar los datos que posee un país se convertirán en una parte importante del poder nacional integral. convertirse en un componente importante después del poder terrestre y el poder marítimo, otra potencia central del país además del poder aéreo. Desde entonces, un concepto completamente nuevo: el big data se ha vuelto popular en todo el mundo.
El concepto y connotación de big data
El concepto de “big data” existe desde hace mucho tiempo. En 1980, el famoso futurista Alvin Toffler escribió en “La Tercera Ola”. En un libro se elogió con entusiasmo el big data como "la cadencia de la tercera ola". Sin embargo, no ha sido hasta los últimos años que los "grandes datos", junto con la "computación en la nube" y el "Internet de las cosas", se han convertido en un vocabulario popular en la industria de la tecnología de la información de Internet. En 2008, con motivo del décimo aniversario de la fundación de Google, la famosa revista "Nature" publicó un número especial dedicado a discutir una serie de cuestiones técnicas y desafíos relacionados con el futuro procesamiento de big data, en el que se abordaba el concepto de "Big Data". propuesto. En mayo de 2011, en la conferencia EMC World 2011 con el tema "La computación en la nube se encuentra con Big Data", EMC también descartó el concepto de Big Data. Por tanto, mucha gente cree que 2011 es el primer año de big data.
Desde entonces, muchos expertos e instituciones han propuesto comprender el big data desde diferentes perspectivas. Por supuesto, debido a la fuerte abstracción del propio big data, actualmente no existe una definición reconocida internacionalmente. Wikipedia cree que big data es un conjunto de datos complejos a gran escala que excede las capacidades de procesamiento de los sistemas de bases de datos o herramientas de administración de bases de datos existentes actualmente, y el tiempo de procesamiento excede el tiempo que los clientes pueden tolerar. Informatica, el proveedor de software de integración de datos empresariales número uno del mundo, cree que big data incluye datos masivos y tipos de datos complejos, y su escala excede las capacidades de gestión y procesamiento de los sistemas de bases de datos tradicionales. Amazon Web Services (AWS) y el científico de big data John Rauser mencionaron una definición simple: Big data es cualquier gran cantidad de datos que excede la potencia de procesamiento de una computadora. La definición de Baidu Search es: "Big data" es un conjunto de datos que es extremadamente grande en volumen y categoría de datos, y el contenido de dicho conjunto de datos no se puede capturar, administrar ni procesar utilizando herramientas de bases de datos tradicionales. Internet Weekly lo define así: El concepto de "big data" es mucho más que una gran cantidad de datos (TB) y la tecnología para procesar grandes cantidades de datos, o un concepto simple como las llamadas "4 Vs", pero cubre la experiencia de las personas en datos a gran escala, puede hacer cosas sobre la base de datos a pequeña escala que no se pueden lograr sobre la base de datos a pequeña escala. En otras palabras, big data nos permite analizar cantidades masivas de datos de una manera sin precedentes y obtener productos y servicios de gran valor, o conocimientos profundos, que en última instancia forman el poder del cambio.
Basándonos en las diferentes definiciones mencionadas anteriormente, creemos que el big data debe incluir al menos los siguientes dos aspectos: primero, la cantidad es enorme y, segundo, no se puede procesar con herramientas tradicionales. Por lo tanto, big data no se trata de cómo definirlos, sino, más importante aún, de cómo utilizarlos. Enfatiza no sólo la escala de los datos, sino también la capacidad de obtener rápidamente información y conocimientos valiosos a partir de datos masivos.
Características de Big Data 4V
En general, se cree que big data tiene principalmente las siguientes cuatro características típicas: volumen, variedad y velocidad y valor (valor), el llamado. “4V”.
1. escala. Las características de big data se reflejan primero en "gran cantidad", y las unidades de almacenamiento van desde GB en el pasado hasta TB, PB y EB. Con el rápido desarrollo de la tecnología de la información, los datos han comenzado a crecer explosivamente. Las redes sociales (Weibo, Twitter, Facebook), las redes móviles, diversos terminales inteligentes, etc. se han convertido en fuentes de datos. Los casi 400 millones de miembros de Taobao generan aproximadamente 20 TB de datos de transacciones de productos básicos cada día; los aproximadamente mil millones de usuarios de Facebook generan más de 300 TB de datos de registro cada día. Existe una necesidad urgente de algoritmos inteligentes, potentes plataformas de procesamiento de datos y nuevas tecnologías de procesamiento de datos para contar, analizar, predecir y procesar datos de gran escala en tiempo real.
2. Diversidad. Una amplia gama de fuentes de datos determina la diversidad de formas de big data. Big data se puede dividir aproximadamente en tres categorías: una son datos estructurados, como datos del sistema financiero, datos del sistema de gestión de información, datos del sistema médico, etc., que se caracterizan por fuertes relaciones causales entre los datos; la otra son datos no estructurados, como; como videos e imágenes, audio, etc., que se caracterizan por una relación causal débil entre los datos; terceros, datos semiestructurados, como documentos HTML, correos electrónicos, páginas web, etc., se caracterizan por una relación causal débil entre los datos.
3. Alta velocidad. A diferencia de los soportes de datos tradicionales, como archivos, transmisiones, periódicos, etc., el intercambio y difusión de big data se realiza a través de Internet, la computación en la nube y otros métodos, lo que es mucho más rápido que el intercambio y difusión de información de los medios tradicionales. La diferencia importante entre big data y datos masivos es que, además de la mayor escala de datos de big data, big data tiene requisitos más estrictos en cuanto a la velocidad de respuesta del procesamiento de datos.
El análisis en tiempo real en lugar del análisis por lotes, la entrada, el procesamiento y el descarte de datos se realizan inmediatamente y casi sin demora. La tasa de crecimiento y la velocidad de procesamiento de los datos son manifestaciones importantes de la alta velocidad del big data.
4. Ésta es también la característica principal del big data. La proporción de datos valiosos entre los datos generados en el mundo real es muy pequeña. En comparación con los datos pequeños tradicionales, el mayor valor de los grandes datos radica en la extracción de datos valiosos para el análisis de predicción de tendencias y patrones futuros a partir de una gran cantidad de datos irrelevantes de varios tipos, y mediante métodos de aprendizaje automático y métodos de inteligencia artificial o análisis en profundidad. Los métodos de extracción de datos pueden descubrir nuevas reglas y nuevos conocimientos, y aplicarlos a diversos campos como la agricultura, las finanzas y la atención médica, para, en última instancia, lograr los efectos de mejorar la gobernanza social, aumentar la eficiencia de la producción y promover la investigación científica.
Seis principales tendencias de desarrollo de big data
Aunque big data todavía está en su infancia y todavía hay muchas dificultades y desafíos, creemos que a medida que pasa el tiempo, las perspectivas de desarrollo futuro de big data son muy prometedores.
1. Los datos crecerán exponencialmente
En los últimos años, con el auge de las redes sociales, Internet móvil, el comercio electrónico, Internet y la computación en la nube, diversos tipos de datos como audio, vídeo, imágenes, registros, etc. . están creciendo a un ritmo exponencial. Según datos relevantes, en 2011, la escala de datos global era de 1,8ZB, lo que podría llenar 57,5 mil millones de iPads de 32 GB. Estos iPads podrían construir dos Grandes Murallas en China. Para 2020, los datos globales alcanzarán los 40 ZB. Si todos ellos se almacenaran en discos Blu-ray, estos discos pesarían tanto como 424 portaaviones USS Nimitz. El Centro de Datos de Internet de Estados Unidos señaló que los datos en Internet crecerán un 50% cada año y se duplicarán cada dos años. Actualmente, más del 90% de los datos del mundo se generaron en los últimos años.
2. Los datos se convertirán en el recurso más valioso
En la era del big data, los datos se han convertido en un nuevo elemento después de la tierra, el trabajo y el capital, constituyendo la competitividad central del desarrollo futuro de las empresas. El Wall Street Journal promovió en un informe titulado "Big Data, Big Impact" que los datos se han convertido en una nueva clase de activos, al igual que la moneda o el oro. Rometty, director ejecutivo de IBM, cree que "los datos se convertirán en el factor fundamental que determinará el éxito o el fracaso en todas las industrias y, eventualmente, los datos se convertirán en un recurso natural vital para la humanidad. Con el desarrollo continuo de las aplicaciones de big data, tenemos razones para creer que son grandes". Los datos se han convertido en un activo importante y el foco de la competencia para instituciones y empresas. Los gigantes de Internet como Google, Apple, Amazon, Alibaba y Tencent están utilizando el poder del big data para lograr un mayor éxito comercial y seguirán utilizándolo. big data para mejorar su competitividad.
3. Integración inteligente de big data e industrias tradicionales
Al recopilar, clasificar, analizar y extraer big data, no solo podemos descubrir problemas de gobernanza urbana y comprender las tendencias de las operaciones económicas, sino también impulsar diseños precisos y modelos de producción precisos. para liderar el camino. La industria de servicios de precisión y valor agregado crea una nueva forma de industria creativa interactiva. Las ubicaciones de tiendas emblemáticas como McDonald's, KFC y Apple se basan en una selección precisa de la ubicación basada en el análisis de datos. Baidu, Alibaba, Tencent, etc. brindan a los usuarios servicios más profesionales y personalizados al dominar y analizar datos masivos. A medida que la construcción de ciudades inteligentes siga profundizándose, los big data desempeñarán un papel cada vez más importante en las ciudades inteligentes. Desde la digitalización urbana hasta las ciudades inteligentes, la clave es lograr el procesamiento inteligente de la información digital. El núcleo de esto es la introducción de la tecnología de procesamiento de big data. Los big data se convertirán en el motor de inteligencia central de las ciudades inteligentes. Las finanzas inteligentes, la seguridad inteligente, la atención médica inteligente, la educación inteligente, el transporte inteligente, la gestión urbana inteligente, etc. son áreas importantes para la integración de big data y las industrias tradicionales.
4. Los datos serán cada vez más abiertos
Los macrodatos son el recurso más común y la riqueza más común de la humanidad La apertura y el intercambio de datos es una tendencia histórica irreversible. A medida que los gobiernos y las empresas de todo el mundo sigan aumentando su conciencia sobre los beneficios sociales y el valor comercial que aportan los datos abiertos, pronto habrá una ola de apertura de datos en todo el mundo. De hecho, el desarrollo de big data requiere la cooperación de todo el mundo y de toda la humanidad, convirtiendo los big data privados en big data públicos y, en última instancia, logrando la integración global de los big data privados, de propiedad empresarial y de la industria. la formación de “islas de datos” inútiles. Cuanto más relevantes son los big data, más valiosos son, y cuanto más abiertos son, más valiosos son. En particular, habrá cada vez más datos abiertos de instituciones públicas y empresas de Internet. En la actualidad, los gobiernos de países y regiones desarrollados como Estados Unidos y Europa han dado ejemplo en términos de datos gubernamentales y del sector público. Por un lado, el gobierno chino también tomará la iniciativa en la promoción de la apertura y el intercambio de datos. Por otro lado, también promoverá la construcción de varias plataformas comerciales de servicios de big data para proporcionar a los usuarios fuentes y datos enriquecidos. aplicaciones.
5. La seguridad de los big data recibirá cada vez más atención
A medida que los big data se utilicen cada vez más en la economía y la sociedad, la seguridad de los big data también recibirá más atención. En la era del big data, mientras utilizamos tecnologías de big data como la minería y el análisis de datos para obtener información valiosa, los "hackers" también pueden utilizar estas tecnologías de big data para recopilar información más útil al máximo y lanzar más ataques a objetivos. de interés Ataque "preciso". En los últimos años, se han producido con frecuencia filtraciones de privacidad personal, información comercial corporativa e incluso secretos de estado.
En este sentido, países desarrollados como Estados Unidos y Europa han formulado y mejorado leyes y regulaciones relevantes para proteger la seguridad de la información y prevenir fugas de privacidad. Es previsible que en un futuro próximo otros países sigan rápidamente su ejemplo para proteger mejor la seguridad de los datos de sus gobiernos, empresas e incluso residentes.
6. Los talentos de big data tendrán una gran demanda
Con el desarrollo continuo de big data y su aplicación cada vez más amplia, incluidos analistas de big data, expertos en gestión de datos, ingenieros de algoritmos de big data, gerentes de productos de datos, etc. Analistas de datos con una rica experiencia se convertirá en un recurso escaso en toda la sociedad y un talento por el que competirán varias instituciones. Según Gartner, una reconocida consultora internacional, la demanda global de talentos de big data alcanzará los 4,4 millones de personas en 2015, pero el mercado de talentos sólo puede satisfacer un tercio de la demanda. McKinsey & Company predice que Estados Unidos necesitará entre 440.000 y 490.000 talentos de análisis de datos en profundidad para 2018, con una brecha de 140.000 a 190.000. En vista de esto, Estados Unidos, a través de la Fundación Nacional de Ciencias, alienta a las universidades de investigación a establecer programas de grado interdisciplinarios para prepararse para la capacitación de la próxima generación de científicos e ingenieros de datos, y establece fondos de capacitación para apoyar la capacitación técnica relevante para estudiantes universitarios. y convocar investigaciones en diversas disciplinas. El personal discutió cómo los grandes datos están cambiando la educación y el aprendizaje. El Reino Unido, Australia, Francia y otros países también han adoptado medidas especiales para cultivar talentos en big data. Empresas como IBM también han comenzado a promover integralmente la cooperación con universidades en el campo de big data, esforzándose por cultivar talentos en datos compuestos que comprendan tanto el conocimiento empresarial como las habilidades analíticas necesarias para el desarrollo corporativo.
(Wu Feng: Centro Nacional de Información)