Antecedentes en la era del big data
La historia de desarrollo específica de la era del big data es la siguiente:
El proyecto Hadoop nació en 2005. Hadoop fue originalmente un proyecto utilizado por Yahoo para resolver problemas de búsqueda web. Posteriormente fue presentado por la Apache Software Foundation y se convirtió en una aplicación de código abierto debido a su alta eficiencia.
Hadoop en sí no es un producto, sino un ecosistema compuesto por múltiples productos de software, * * * para lograr funciones integrales y análisis flexible de big data. Técnicamente hablando, Hadoop consta de dos servicios clave: un servicio de almacenamiento de datos confiable que utiliza el sistema de archivos distribuido Hadoop (HDFS) y un servicio de procesamiento de datos paralelo de alto rendimiento que utiliza la tecnología MapReduce. El objetivo común de ambos servicios es proporcionar una base para un análisis rápido y confiable de datos estructurados y complejos.
A finales de 2008, algunos investigadores informáticos de renombre en los Estados Unidos reconocieron el "big data". La industria organizó el Computing Community Consortium y publicó el influyente libro blanco "Big Data Computing: Creando avances revolucionarios en los negocios, la ciencia y la sociedad". Permite a la gente pensar más allá de las máquinas de procesamiento de datos y propone que lo realmente importante del big data son los nuevos usos y los nuevos conocimientos, no los datos en sí. Se puede decir que esta organización es la primera organización en proponer el concepto de big data.
En 2009, el gobierno indio estableció una base de datos biométrica para la gestión de identidad, y el Proyecto Global Pulse de las Naciones Unidas ha estudiado cómo utilizar fuentes de datos de teléfonos móviles y sitios de redes sociales para analizar y predecir desde precios en espiral hasta problemas como los brotes de enfermedades. Ese mismo año, el gobierno de Estados Unidos abrió aún más la puerta a los datos al lanzar el sitio web http://Data.gov, que proporciona al público una variedad de datos gubernamentales. Se utilizan más de 44.500 conjuntos de datos en el sitio para permitir que los sitios web y las aplicaciones de teléfonos inteligentes realicen un seguimiento de todo, desde vuelos hasta retiradas de productos y tasas de desempleo en áreas específicas. La acción inspiró a gobiernos desde Kenia hasta el Reino Unido a lanzar iniciativas similares.
En 2009, algunas de las principales bibliotecas de investigación e institutos de información científica de Europa formaron una asociación para mejorar el acceso a los datos científicos en Internet.
Febrero de 2010, Kenneth? Cooker publicó un informe de big data de 14 páginas "Data, Data Everywhere" en The Economist. Cook mencionó en el informe: "Existe una cantidad inimaginable de información digital en el mundo y está creciendo a un ritmo extremadamente rápido. Desde el mundo económico hasta el mundo científico, desde los departamentos gubernamentales hasta el campo artístico, esto se ha sentido". El impacto de esta enorme cantidad de información se refleja en muchos aspectos. Por lo tanto, los científicos e ingenieros informáticos acuñaron una nueva palabra para este fenómeno: "Big Data". /p>
En febrero de 2011, la supercomputadora Watson de IBM podía escanear y analizar 4 TB (aproximadamente 200 millones de páginas) de datos por segundo y derrotó a dos concursantes humanos en el famoso programa de televisión estadounidense "Jeopardy Later, the New York". Times informó que este momento fue considerado como "la victoria de la informática de big data". En mayo del mismo año, el McKinsey Global Institute (MGI) de McKinsey & Company publicó un informe: "Big Data: la próxima nueva área de innovación". , Competencia y Productividad". Big data ha comenzado a atraer la atención. Esta es también la primera vez que una organización profesional proporciona una introducción y una perspectiva integral sobre big data. El informe señala que big data ha penetrado en todas las industrias y funciones comerciales. área hoy y se ha convertido en un importante factor de producción para las personas. La extracción y aplicación de datos presagia la llegada de una nueva ola de crecimiento de la productividad y el excedente de los consumidores. El informe también menciona que los "grandes datos" surgen del enorme aumento en la capacidad y. velocidad de producción y recopilación de datos: a medida que más y más personas, dispositivos y sensores están conectados a través de redes digitales, y la capacidad de generar, transmitir, compartir y acceder a datos también cambió por completo.
En 2011. En el "Duodécimo Plan Quinquenal" para Internet de las Cosas publicado por el Ministerio de Industria y Tecnología de la Información, el procesamiento de información se propuso como uno de los cuatro proyectos clave de innovación tecnológica, incluido el almacenamiento masivo de datos, la minería de datos y la minería de datos. análisis inteligente de imágenes y vídeos, todos ellos componentes importantes del big data
2012 12 en Davos, Suiza El big data fue uno de los temas del informe del Foro Económico Mundial "Big Data, Big Impact". publicado en la reunión declaró que los datos se han convertido en una nueva clase de activo económico, al igual que la moneda o el oro.
En marzo de 2012, la administración Obama publicó la "Iniciativa de Investigación y Desarrollo de Big Data" en el sitio web de la Casa Blanca. , que marcó que big data se había convertido en una característica importante de la era. El 22 de marzo de 2012, la administración Obama anunció que La inversión de 200 millones de dólares en el campo de los datos es un hito para que la tecnología de big data pase de una práctica comercial a una práctica comercial. estrategia nacional de ciencia y tecnología En la conferencia telefónica del segundo día, el gobierno definió los datos como el "nuevo petróleo del futuro" y la competencia en el campo de la tecnología de big data también dijo que. la competitividad nacional se reflejará en parte en la escala, la actividad, la interpretación y las capacidades de aplicación de los datos de un país; la soberanía digital nacional refleja la posesión y el control de los datos.
La soberanía digital será otro espacio de juego para los países grandes después de la defensa fronteriza, la defensa costera y la defensa aérea.
En abril de 2012, la empresa de software estadounidense Splunk cotizó con éxito en Nasdaq en junio de 2019, convirtiéndose en la primera empresa de procesamiento de big data en cotizar. En vista de la continua lentitud de la economía estadounidense y la continua volatilidad del mercado de valores, el excelente desempeño comercial de Splunk en el primer día es particularmente impresionante, ya que su aumento del primer día se duplicó con creces. Splunk es un proveedor líder de software de servicios de análisis y monitoreo de big data, fundado en 2003. La exitosa cotización de Splunk ha promovido la atención del mercado de capitales hacia big data y también ha impulsado a los fabricantes de TI a acelerar su diseño de big data. En julio de 2012, las Naciones Unidas publicaron en Nueva York un libro blanco sobre big data en los asuntos gubernamentales, en el que se resume cómo los gobiernos pueden utilizar big data para servir y proteger mejor a las personas. Este documento técnico establece los roles, motivaciones y necesidades de los individuos, el sector público y el privado en el ecosistema de datos: por ejemplo, los individuos aportan datos y obtienen información mediante su deseo de atención a los precios y mejores servicios, y exigen privacidad y opciones. nuestros derechos; Para mejorar los servicios y aumentar el bienestar, el sector público proporciona datos estadísticos, información sobre equipos, indicadores de salud, información fiscal y de consumo, etc. y requieren derechos de privacidad y retiro; el sector privado proporciona datos agregados, información sobre consumo y uso con el fin de aumentar la conciencia de los clientes y predecir tendencias, y presta más atención a la propiedad de datos confidenciales y modelos comerciales. El libro blanco también señala que las personas ahora pueden utilizar una gran cantidad de recursos de datos, incluidos datos antiguos y nuevos, para realizar análisis en tiempo real sin precedentes de las poblaciones sociales. Las Naciones Unidas también citaron el crecimiento de la actividad de las redes sociales en Irlanda y Estados Unidos como una señal temprana del aumento del desempleo, sugiriendo que los gobiernos podrán "seguir el ritmo de las cifras" y responder rápidamente si analizan adecuadamente los recursos de datos que tienen. . En julio de este año, para aprovechar el valor de big data, Alibaba Group estableció el puesto de "Director de Datos" en la administración, responsable de promover integralmente la estrategia de "plataforma de intercambio de datos", y lanzó un intercambio de datos a gran escala. plataforma: "Jushi Tower" para Tmall, el comercio electrónico y los proveedores de servicios de comercio electrónico en la plataforma Taobao brindan servicios de datos en la nube. Posteriormente, Jack Ma, presidente de la junta directiva de Alibaba, pronunció un discurso en la Conferencia de Negocios de Internet de 2012 y dijo que a partir de enero de 2013, los tres principales negocios de plataformas, finanzas y datos se transformarán y remodelarán. Jack Ma enfatizó: "Si tenemos una plataforma de predicción de datos, es como instalar un GPS y un radar para las empresas, y tendrá más confianza para viajar al extranjero. Por lo tanto, Alibaba Group espera proporcionar a los países y a las pequeñas y medianas empresas". con servicios compartiendo y extrayendo datos masivos. Esta medida es el primer hito importante para que las empresas nacionales eleven el big data al nivel de gestión corporativa. Alibaba es también la primera empresa en proponer operaciones digitales empresariales a través de datos.
En abril de 2014, el Foro Económico Mundial publicó el "Informe Global sobre Tecnología de la Información" (13ª edición) con el tema "Rendimientos y Riesgos del Big Data". Según el informe, diversas políticas en materia de tecnologías de la información y las comunicaciones adquirirán aún más importancia en los próximos años. A continuación, discutiremos activamente temas como la privacidad de los datos y el control de la red. A medida que la industria global de big data se vuelve cada vez más activa y la evolución tecnológica y la innovación de aplicaciones se aceleran, los gobiernos de todo el mundo se están dando cuenta gradualmente de la importancia de los big data para promover el desarrollo económico, mejorar los servicios públicos, mejorar el bienestar de las personas e incluso mantener la seguridad nacional. En mayo, la Casa Blanca publicó el informe de investigación global sobre "Big Data" de 2014, "Big Data: Aprovechando oportunidades, protegiendo valores". El informe fomenta el uso de datos para impulsar el progreso social, especialmente en otras áreas donde los mercados y los sistemas existentes no respaldan dicho progreso; al mismo tiempo, se necesitan marcos, estructuras e investigaciones correspondientes para ayudar a proteger la capacidad de los estadounidenses de proteger la privacidad personal; , garantizar la equidad o prevenir la discriminación. Tener fe. En 2014, los “grandes datos” aparecieron por primera vez en el informe sobre la labor del gobierno de ese año. El informe señala que es necesario construir una plataforma de innovación para las industrias emergentes, ponerse al día con los avanzados en big data y otros aspectos, y liderar el futuro desarrollo industrial. “Big data” se convirtió inmediatamente en una palabra candente en China.
En 2015, el Consejo de Estado emitió oficialmente el "Plan de acción para promover el desarrollo de Big Data". El "Plan" propone claramente promover el desarrollo y la aplicación de big data, crear un nuevo modelo de gobernanza social con una gobernanza precisa y cooperación multipartidista en los próximos cinco a diez años, establecer un nuevo mecanismo para una economía estable, segura y eficiente operación, construir un nuevo sistema de servicios de medios de vida orientados a las personas, abrir e innovar el emprendimiento público y la innovación. Esto marca el auge oficial del big data en esta estrategia nacional.
En 2016, se publicará el “Decimotercer Plan Quinquenal” para big data, y el plan se ha modificado mediante consultas de expertos y debates intensivos. La planificación implica promover la aplicación de big data en investigación y desarrollo industrial, fabricación y todos los aspectos de la cadena industrial; apoyar a la industria de servicios en el uso de big data para crear marcas, marketing de precisión y servicios personalizados.
Tecnología big data:
1. Hadoop
Hadoop nació en 2005. Comenzó como un proyecto de Yahoo para resolver problemas de búsqueda web. Posteriormente, debido a su alta eficiencia, fue introducida por la Apache Software Foundation y se convirtió en una aplicación de código abierto. Hadoop en sí no es un producto, sino un ecosistema compuesto por múltiples productos de software para lograr funciones integrales y análisis flexible de big data. Técnicamente hablando, Hadoop consta de dos servicios clave: un servicio de almacenamiento de datos confiable que utiliza el sistema de archivos distribuido Hadoop (HDFS) y un servicio de procesamiento de datos paralelo de alto rendimiento que utiliza la tecnología MapReduce.
2. Reserva
Hive es una arquitectura de almacén de datos basada en el sistema de archivos Hadoop que puede analizar y administrar datos almacenados en HDFS. Originalmente fue generado y desarrollado para satisfacer las necesidades de gestión y aprendizaje automático de las grandes cantidades de datos de redes sociales emergentes que genera Facebook todos los días. Posteriormente, otras empresas empezaron a utilizar y desarrollar Apache Hive, como Netflix y Amazon.
3. Storm:
Storm es un marco informático distribuido escrito principalmente en el lenguaje de programación Clojure. El negocio de inteligencia de marketing fue fundado originalmente por Nathan Marz y su equipo en BackType y fue adquirido por Twitter en 2011. Posteriormente, Twitter abrió el proyecto y lo envió a la plataforma GitHub. Finalmente, Storm se unió al Programa Incubadora Apache y se convirtió oficialmente en uno de los principales proyectos de Apache en septiembre de 2014.