Cómo abordar las oportunidades y desafíos de la recopilación de datos en la era del Internet de las cosas
La llegada de la era del big data
El desarrollo de Internet, especialmente de la Internet móvil, ha acelerado la penetración de la informatización en todos los aspectos de la economía social y de la vida cotidiana de las personas. Los datos muestran que el tráfico mensual promedio de los usuarios de Internet en todo el mundo fue de 1 MB (megabytes) en 1998, 100 MB en 2000, 100 MB en 2003 y 10 GB en 2008 (10 GB equivalen a 1024. El tráfico total de toda la red alcanzó 65.438). de usuarios chinos de Internet en el mundo En primer lugar, la cantidad de datos generados cada día también se encuentra entre las más altas del mundo. El volumen de transacciones diarias del sitio web de Taobao supera las decenas de millones, el volumen de generación de datos diario supera los 50 TB (1 TB equivale a 1000 GB) y la capacidad de almacenamiento es de 40 PB (1 PB equivale a 1000 TB). En la actualidad, los datos totales de Baidu se acercan a los 1.000 PB y el número de páginas web almacenadas se acerca al billón. Cada día procesa aproximadamente 6 mil millones de solicitudes de búsqueda y decenas de petabytes de datos. Una cámara de 8 Mbps (megabits por segundo) puede generar 3,6 GB de datos en una hora. Si una ciudad instala cientos de miles de cámaras de tráfico y de seguridad, la cantidad de datos generados cada mes alcanzará decenas de petabytes. Los hospitales también son donde se concentran los datos. En la actualidad, la cantidad de datos de imágenes de TC de un paciente es de decenas de GB y el número de clínicas ambulatorias en nuestro país es de miles de millones cada año. Su información debe almacenarse durante mucho tiempo. En resumen, los big data existen en todos los ámbitos de la vida y se avecina una era de big data.
La explosión de la información no comenzó hoy, pero en los últimos años, la gente ha sentido el rápido desarrollo del big data. Por un lado, el número de usuarios de Internet está aumentando y, por otro, el número de dispositivos conectados a Internet representados por el Internet de las cosas y los electrodomésticos está creciendo más rápidamente. En 2007, había 500 millones de dispositivos conectados a Internet, con una media de 0,1 dispositivos per cápita. En 2013, 50 mil millones de dispositivos estarán conectados a Internet en todo el mundo, con un promedio de 70 dispositivos por persona. Con el desarrollo de la banda ancha, el ancho de banda y el tráfico de acceso a la red per cápita también han aumentado rápidamente. Los datos recién generados en todo el mundo aumentan a un ritmo del 40% cada año, lo que significa que la cantidad total de información puede duplicarse cada dos años, y esta tendencia continuará. Actualmente, no es raro que un único conjunto de datos supere las decenas de terabytes o incluso petabytes, un tamaño tan grande que las herramientas de software convencionales no pueden capturarlo, gestionarlo y procesarlo en el tiempo permitido.
Cuanto mayor es el tamaño de los datos, más difícil es procesarlos, pero más valiosos pueden ser cuando se extraen, razón por la cual el big data es tan popular. En primer lugar, los big data reflejan el sentimiento y la opinión pública. Los datos masivos generados por los internautas en Internet registran sus pensamientos, comportamientos e incluso emociones. Es producto de la profunda integración de la sociedad real y el ciberespacio en la era de la información y contiene ricas connotaciones y una gran cantidad de información regular. Según las estadísticas del Centro de Información de la Red de Internet de China, a finales de 2012, el número de usuarios de Internet en mi país era de 564 millones y el número de usuarios de Internet móviles era de 420 millones. Al analizar datos relevantes, podemos comprender las necesidades, requisitos y opiniones del público. En segundo lugar, los sistemas de información empresariales y gubernamentales continúan generando grandes cantidades de datos todos los días. Según un informe de investigación de Symantec, el volumen total de almacenamiento de información de las empresas globales ha alcanzado 2,2ZB (1ZB equivale a 1000EB), con una tasa de crecimiento anual del 67%. Los hospitales, escuelas y bancos también recopilan y almacenan grandes cantidades de información. Los gobiernos pueden implementar sensores y otras unidades de detección para recopilar la información necesaria para la gestión ambiental y social. En 2011, la revista británica Nature publicó un número especial en el que señalaba que si podemos organizar y utilizar los macrodatos de forma más eficaz, los seres humanos tendremos más oportunidades de desempeñar un papel enorme en la promoción del desarrollo social a través de la ciencia y la tecnología.
Campos de aplicación de big data
La tecnología de big data se puede aplicar a todos los ámbitos de la vida. En términos de macroeconomía, IBM Japón ha establecido un sistema de pronóstico de índices económicos, buscó 480 datos económicos que afectan a la industria manufacturera en noticias de Internet y calculó el valor previsto del índice de gerentes de compras. La Universidad de Indiana utilizó la herramienta de análisis de sentimientos proporcionada por Google para resumir 6 emociones de los comentarios de casi 10 millones de usuarios de Internet y luego predijo cambios en el Promedio Industrial Dow Jones con una precisión del 87%. En el sector manufacturero, los fondos de cobertura de Wall Street analizan las ventas de productos de las empresas basándose en las opiniones de los clientes en los sitios de compras. Algunas empresas utilizan el análisis de big data para lograr adquisiciones y una gestión razonable del inventario, comprender las necesidades de los clientes y captar las tendencias del mercado mediante el análisis de datos en línea. Los datos muestran que las pérdidas de ventas anuales de los minoristas mundiales debido a las compras a ciegas ascienden a 654.380 millones de dólares estadounidenses. El análisis de datos en esta área tiene un gran potencial.
En el ámbito agrícola, existe una empresa climática en Silicon Valley que obtiene décadas de datos meteorológicos de bases de datos como la Oficina Meteorológica de EE. UU. y analiza la relación entre las precipitaciones, la temperatura, las condiciones del suelo y el rendimiento de los cultivos a lo largo del tiempo. años. Correlation elabora gráficos precisos, predice el rendimiento anual de una granja en los próximos años y vende seguros personalizados a los agricultores. En el ámbito comercial, Walmart analiza los datos de ventas para comprender los hábitos de compra de los clientes y obtener productos aptos para la venta en conjunto.
Los grupos de clientes también se pueden segmentar para brindar servicios personalizados. En el ámbito financiero, la empresa de Wall Street "Derwent Capital Markets" analiza mensajes de 340 millones de cuentas de Weibo, juzga las emociones de las personas y decide comprar y vender acciones de la empresa basándose en la regla de que la gente compra acciones cuando está feliz y vende acciones cuando están ansiosos. Según el estado de las transacciones de las pequeñas y medianas empresas en Taobao, Alibaba Company selecciona empresas honestas y financieramente sanas y ofrece préstamos sin garantía. En la actualidad, se han prestado más de 30.000 millones de yuanes y la tasa de morosidad es sólo del 0,3%.
En el ámbito de la salud, el proyecto "Google Flu Trends" analiza la propagación de la gripe y otras enfermedades en todo el mundo a partir de las búsquedas de los internautas. La enfermedad se rastreó con una precisión del 97% en comparación con los informes proporcionados por los Centros para el Control y la Prevención de Enfermedades. Las redes sociales proporcionan una plataforma para que muchos pacientes con enfermedades crónicas comuniquen síntomas clínicos y compartan experiencias de diagnóstico y tratamiento, lo que permite a los médicos obtener estadísticas de efectos clínicos que normalmente no están disponibles en los hospitales. Basado en el análisis de big data de genes humanos, se puede lograr un tratamiento personalizado. En el campo de la gestión de la seguridad social, mediante la extracción de datos de teléfonos móviles se pueden analizar las fuentes dinámicas en tiempo real, los viajes, la información del tráfico en tiempo real y las condiciones de congestión de la población flotante. Mediante el uso de SMS, Weibo, WeChat y motores de búsqueda, podemos recopilar eventos candentes, extraer opinión pública y rastrear la fuente de información falsa. El Instituto Tecnológico de Massachusetts (MIT) en Estados Unidos procesa llamadas de teléfonos móviles, mensajes de texto y ubicaciones espaciales de más de 100.000 personas, extrae los patrones espaciotemporales del comportamiento de las personas y predice delitos. En el campo de la investigación científica, los descubrimientos científicos basados en el análisis intensivo de datos se han convertido en el cuarto ejemplo después de la ciencia experimental, la ciencia teórica y la ciencia computacional, la genómica de materiales y la biología sintética basada en el análisis de grandes datos.
El informe de McKinsey & Company de 2011 especulaba que si se utiliza big data en la atención sanitaria en Estados Unidos, generará un valor potencial de 300 mil millones de dólares al año, y si se utiliza en la administración pública en En Europa, obtendrá un valor potencial de 250 mil millones de euros al año; los proveedores de servicios pueden obtener 600 mil millones de dólares en ganancias anuales para los consumidores potenciales mediante el uso de datos de ubicación personal, los minoristas pueden aumentar las ganancias operativas en un 60%; Los costes de montaje de los equipos de fabricación se reducirán en un 50%.
Desafíos y avances de la tecnología Big Data
Todavía existen algunas dificultades y desafíos en la aplicación actual de la tecnología Big Data, que se reflejan en los cuatro eslabones de la minería de Big Data. Primero, en términos de recopilación de datos. Es necesario marcar en el tiempo y el espacio los datos de Internet, incluido el Internet de las cosas, los sistemas de información institucionales, etc., eliminar las falsedades y preservar la verdad, recopilar en la medida de lo posible datos heterogéneos o incluso heterogéneos, compararlos con datos históricos. datos cuando sea necesario, y verificar la exhaustividad de los datos desde múltiples ángulos y su credibilidad. El segundo es el almacenamiento de datos. Para lograr los objetivos de bajo costo, bajo consumo de energía y alta confiabilidad, generalmente se adoptan tecnologías de configuración redundante, distribución y computación en la nube. Al almacenar, los datos deben clasificarse de acuerdo con ciertas reglas y la capacidad de almacenamiento debe reducirse mediante filtrado y deduplicación, al mismo tiempo que se agregan etiquetas para una fácil recuperación en el futuro. El tercero es el procesamiento de datos. En algunas industrias, los datos involucran cientos de parámetros y su complejidad no solo se refleja en la muestra de datos en sí, sino también en la interacción dinámica de múltiples fuentes, entidades heterogéneas y múltiples espacios. Los métodos tradicionales son difíciles de describir y medir y la complejidad del procesamiento es alta. Es necesario medir y procesar datos multimedia, como imágenes de alta dimensión después de la reducción de dimensionalidad, utilizar la correlación contextual para realizar análisis semánticos, sintetizar información a partir de una gran cantidad de datos dinámicos y potencialmente ambiguos y generar contenido comprensible. El cuarto es la presentación visual de los resultados, que hace que los resultados sean más intuitivos y facilita la comprensión. En la actualidad, aunque la inteligencia informática ha logrado grandes avances, solo puede analizar datos a pequeña escala, estructurados o cuasiestructurados, y mucho menos la minería de datos profunda. También es difícil que los algoritmos de minería de datos existentes se utilicen universalmente en diferentes industrias.
Las perspectivas de aplicación de la tecnología de big data son muy brillantes. En la actualidad, nuestro país está en el proceso de construir una sociedad moderadamente acomodada de manera integral, y las tareas de industrialización, informatización, urbanización y modernización agrícola son muy arduas. Construir la próxima generación de infraestructura de información, desarrollar un sistema industrial de tecnología de la información moderno, mejorar el sistema de seguridad de la información y promover la aplicación generalizada de la tecnología de redes de información son las garantías para lograr el desarrollo simultáneo de las cuatro modernizaciones. El análisis de big data es de gran importancia para que podamos comprender profundamente las condiciones mundiales y nacionales, comprender las leyes, lograr el desarrollo científico y tomar decisiones científicas. Debemos volver a comprender el importante valor de los datos.
Para desarrollar la mina de oro del big data, todavía nos queda mucho trabajo por hacer. En primer lugar, el análisis de big data requiere tecnología de big data y soporte de producto. Las empresas de tecnología de la información (TI) en algunos países desarrollados han hecho esfuerzos iniciales para transformarse en proveedores de soluciones de big data mediante el aumento de esfuerzos de desarrollo y fusiones. Algunas empresas extranjeras se han hecho un nombre al realizar análisis de big data de forma gratuita, no sólo para formación, sino también para obtener inteligencia. La excesiva dependencia de tecnologías y plataformas extranjeras de análisis de big data hace difícil evitar el riesgo de fuga de información. Algunas informaciones de la vida cotidiana pueden parecer insignificantes, pero en realidad también podemos sentir en ellas el pulso económico y social nacional. Por lo tanto, necesitamos tecnologías y productos de big data independientes y controlables. En marzo de 2012, el gobierno de Estados Unidos lanzó la Iniciativa de Investigación y Desarrollo de Big Data, que fue otro importante despliegue tecnológico después de anunciar la "Superautopista de la Información" en 1993. El gobierno federal y algunos ministerios han dispuesto financiación para el desarrollo de big data. Hay muchas brechas entre China y los países desarrollados, que requieren apoyo de políticas nacionales.
China, el país más poblado del mundo, generará la mayor cantidad de datos, pero no prestamos suficiente atención a su preservación y la tasa de utilización de los datos almacenados no es alta.
Además, algunos departamentos e instituciones de nuestro país tienen una gran cantidad de datos pero no están dispuestos a compartirlos con otros departamentos, lo que resulta en información incompleta o duplicación de inversiones. El gobierno debe romper la separación y el bloqueo de datos mediante reformas institucionales, prestar atención a la divulgación de información y prestar atención a la extracción de datos. El gobierno federal de EE. UU. ha establecido un portal abierto de datos unificado para brindar servicios de información a la sociedad y fomentar la extracción y utilización. Por ejemplo, proporciona la relación entre el clima local y los retrasos en los vuelos para ayudar a las aerolíneas a mejorar su puntualidad.
La extracción y utilización de big data debe basarse en leyes. La decisión de fortalecer la protección de la información de la red aprobada por el Congreso Nacional del Pueblo a fines del año pasado es un buen comienzo. En la actualidad, es necesario formular una "Ley de Divulgación de Información" lo antes posible para adaptarse a la llegada de la era del big data. Muchas instituciones y empresas disponen ahora de una gran cantidad de información de sus clientes. Es necesario fomentar la extracción de datos para grupos y servir a la sociedad, pero también evitar la vulneración de la privacidad personal, es necesario promover el intercambio de datos y evitar que se abuse de ellos. Además, es necesario definir la autoridad y el alcance de la extracción y explotación de datos. La seguridad del propio sistema de big data también merece una atención especial. Prestar igual atención a la seguridad técnica y a la seguridad del sistema de gestión para evitar que la información sea destruida, manipulada, filtrada o robada, y para proteger la seguridad de la información de los ciudadanos y del país.
La era del big data requiere talentos innovadores. Geithner Consulting predice que big data creará 4,4 millones de nuevos empleos de TI y decenas de millones de empleos no relacionados con TI en todo el mundo. McKinsey predice que Estados Unidos necesitará entre 440.000 y 490.000 talentos de análisis de datos en profundidad para 2065, 438+08 años, con una brecha de 654,38+040.000-654,38+09 millones; están familiarizados con las necesidades de sus unidades, comprenden la tecnología y la aplicación de big data, y la brecha de talento en esta área es aún mayor. China es un país rico en talento, pero los talentos innovadores que puedan comprender y aplicar big data son recursos escasos.
Big data es una expresión concentrada de la nueva generación de tecnología de la información, es un campo de servicios con una fuerte fuerza impulsora de aplicaciones y un campo industrial emergente con un potencial ilimitado. En la actualidad, sus estándares y estructura industrial no lo han hecho. todavía no se ha formado, lo que representa un valioso salto adelante para el desarrollo de China. Deberíamos otorgar importancia estratégica al desarrollo y utilización de big data y utilizarlos como un punto de partida eficaz para transformar el modo de crecimiento económico, pero debemos prestar atención a la planificación científica y evitar apresurarnos.