¿Qué talentos en análisis y minería de datos hay en China?
El informe de IDC muestra que el mercado mundial de tecnología y servicios de big data mantendrá una tasa de crecimiento anual compuesta de 365.438 0,7 en los próximos años, y se espera que el tamaño total del mercado alcance los 23.800 millones de dólares en 2065. ,438 06. Según este cálculo, la tasa de crecimiento del mercado de big data alcanzará 7 veces la tasa de crecimiento de todo el campo de las tecnologías de la información y las comunicaciones durante el mismo período. Este mercado está absorbiendo rápidamente tecnologías y servicios de una variedad de mercados nuevos y existentes. En la actualidad, algunos líderes de la industria de TI, como IBM, Microsoft, Oracle, HP, EMC, etc., son optimistas sobre este campo y han invertido mano de obra y recursos financieros en el diseño.
Según IDC, la cantidad de datos generados por el comportamiento humano se ha multiplicado por 10 en los últimos cinco años, y este aumento llegará a 29 veces en los próximos 10 años. Sin embargo, el 80% de los datos son datos no estructurados. La forma de extraerlos y utilizarlos se convertirá en el valor y la dificultad del big data.
Gao Wen, presidente del Comité Directivo de la Conferencia Informática de China y profesor de la Universidad de Pekín, dijo recientemente en una entrevista con esta revista que los big data no sólo son una gran preocupación para la industria, sino también un punto caliente en el campo técnico. Desde una perspectiva técnica, la minería de datos es el valor del big data, pero todavía hay muchos problemas en la minería de datos, que están lejos de nuestras expectativas. Dijo que Alibaba ha intentado extraer datos y que Alibaba Financial Logistics se ha derivado de los datos de transacciones masivas del comercio electrónico, pero esto sólo tiene valor en el campo comercial y no ha liberado energía para el cambio social. En el futuro, los big data traerán más cambios a la sociedad.
El valor que aportan los big data también se está debatiendo ampliamente en la industria y el mundo académico. En los últimos años, los big data han penetrado continuamente en todos los ámbitos de la vida, generando un impacto revolucionario en todos los campos y se están convirtiendo en la fuerza impulsora y el impulsor de la innovación en diversas industrias. Durante este período, con el continuo desarrollo e innovación de la tecnología social de Internet, las personas se han acostumbrado cada vez más a compartir información y datos diversos, expresar demandas y hacer sugerencias a través de plataformas sociales como Weibo, WeChat, blogs y foros. La cantidad de datos que se distribuyen a través de estas plataformas cada día asciende a decenas o incluso cientos de miles de millones. Estos enormes datos sociales forman una parte importante de big data y desempeñan un papel importante en la recopilación de tendencias de opinión pública por parte del gobierno, la comprensión de las empresas sobre la reputación de los productos y el desarrollo de la demanda del mercado por parte de las empresas.
Hoy en día, aunque Internet se ha convertido en una forma muy eficaz de recopilar la opinión pública y comprender la eficacia del trabajo gubernamental y empresarial. Sin embargo, debido a la falta de medidas de supervisión necesarias para las publicaciones en línea, es difícil obtener información de opinión pública en línea profunda y de alta calidad de manera oportuna y efectiva después de que ocurre una crisis de opinión pública, lo que a menudo resulta en un manejo pasivo de la información. Eventos de crisis de opinión pública. Por lo tanto, prestar atención a las respuestas de la opinión pública en línea y establecer un sistema de respuesta de la opinión pública de "monitoreo, respuesta, resumen y archivo" se ha convertido en uno de los contenidos importantes de los asuntos gubernamentales en la era del big data.
En este contexto, la industria de seguimiento y análisis de la opinión pública surgió cuando los tiempos exigen adaptarse a los servicios y seguimiento de la opinión pública en la era del big data. Principalmente a través de la recopilación masiva de información, el análisis semántico inteligente, el procesamiento del lenguaje natural, la extracción de datos, el aprendizaje automático y otras tecnologías, monitoreamos continuamente la información en sitios web, foros, blogs, Weibo, medios impresos, WeChat y otra información, y la captamos de manera oportuna. Se pueden utilizar varios tipos de información y dinámicas de red de manera integral y precisa para explorar señales de eventos del vasto universo de big data, resumir las tendencias de la opinión pública, captar las actitudes y emociones del público y hacer predicciones y sugerencias de tendencias basadas en similitudes históricas. y eventos similares.
El valor de la aplicación de big data en el seguimiento de la opinión pública
(1) El núcleo del valor de big data: predicción de la opinión pública
El punto de partida de La guía tradicional de opinión pública en red es predecir lo que ya ha sucedido. Monitorear la aparición de opiniones públicas en línea. Sin embargo, la limitación de este método es su histéresis. La aplicación de la tecnología de big data es extraer y analizar datos relacionados con la opinión pública en línea, adelantar el tiempo objetivo de monitoreo a la etapa inicial de la difusión de noticias sensibles en Internet y simular la evolución de la opinión pública en línea real a través del modelo establecido. para lograr la predicción de la repentina opinión pública de Internet.
(2) Condiciones para el valor de big data: opinión pública integral
La primera condición para que la tecnología de big data prediga la opinión pública es el análisis y cálculo de varios datos integrales relacionados.
En la era tradicional de los datos, al analizar las opiniones de los internautas o las tendencias de la opinión pública, solo se centran en las actitudes y emociones de los internautas e ignoran los cambios psicológicos de los internautas, solo se centran en la información de texto y prestan menos atención a las imágenes, videos, voces y otros; contenido; solo observan los cambios de la opinión pública local, ignorando los cambios en la opinión pública de otros grupos; solo interpretan el contenido del texto de los internautas, pero ignorando la compleja y cambiante red de relaciones sociales. Desde la perspectiva del análisis de la opinión pública, los internautas son simplemente "zombis solitarios" en el océano de información, al igual que una colonia de hormigas puede surgir con gran inteligencia, pero una sola hormiga corre como una olla caliente.
La era del big data ha superado el pensamiento unilateral, único y estático de la era de los datos tradicionales y ha comenzado a realizar investigaciones tridimensionales, globales y dinámicas sobre los datos de opinión pública en red e incorporar datos aparentemente insignificantes de la opinión pública en su ámbito de análisis y cálculo.
(C) La base del valor de los big data: cuantificación de la opinión pública
La realización del valor de los big data para predecir la opinión pública debe basarse en el uso de matemáticas Modelos para calcular y analizar científicamente las enormes cantidades de información excavada. Sobre la base de, la premisa es la cuantificación de varios datos relacionados, es decir, toda la información de la opinión pública se puede cuantificar. Pero la cuantificación de datos no es lo mismo que la simple digitalización, sino la computabilidad de los datos. Es necesario prestar atención a los comentarios de los internautas y contar el número de personas que tienen esta opinión; al interpretar el contenido de los discursos de los internautas, contar el número de redes sociales en las que los internautas interactúan se pueden identificar mediante indicadores cuantitativos; .
(D) La clave del valor del big data: la relevancia de la opinión pública
Detrás de los datos está la red, y detrás de la red están las personas. La investigación de datos de la red es en realidad una red social compuesta por investigadores. La tecnología clave para que la tecnología de big data prediga el valor de la opinión pública es correlacionar la relación entre las opiniones públicas, que no solo se centrará en la relación causal en el sentido tradicional, sino también en la correlación entre los datos. Según el pensamiento de big data, cada dato es un nodo, que puede formar un efecto de multiplicación ilimitado con otros datos relacionados en la cadena de opinión pública; similar a la ruta de propagación de la fisión de Weibo, el estado de los datos relacionados con la fisión contiene infinitas posibilidades.
El cuello de botella del seguimiento de la opinión pública en la era del big data
En la actualidad, el principal método de seguimiento de la opinión pública sigue siendo la búsqueda manual. Aunque también se utiliza un software de búsqueda relativamente maduro en el mercado para la búsqueda auxiliar, todavía se utiliza el método de búsqueda bidimensional tradicional, es decir, las palabras clave del tema y las coordenadas bidimensionales de la plataforma de red se utilizan para la búsqueda de opinión pública, y El personal de opinión pública procesa la información recopilada y la convierte en un producto de opinión pública. Sin embargo, los resultados de la información de opinión pública son en su mayoría información textual de primera clase. Para información de opinión pública profunda y multinivel, como noticias, comentarios después de Weibo, relaciones sociales de los internautas, cambios emocionales reflejados en los comentarios de los internautas sobre un determinado evento, así como comentarios y sugerencias incendiarios y orientados a la acción de los internautas, etc. ., es imposible profundizar aún más depende de la recopilación, el análisis y el juicio manuales. Sujeto a los diferentes niveles de conocimiento y juicios de valor de los trabajadores de la opinión pública, es muy probable que se pierda información valiosa de la opinión pública y que la tendencia de la opinión pública no pueda predecirse de manera precisa y oportuna, lo que reduce en gran medida la eficiencia y precisión de la opinión pública. trabajo de seguimiento y aumenta la dificultad de descubrir información valiosa sobre la opinión pública. La contingencia y las conjeturas esconden peligros para la predicción de la opinión pública sobre emergencias importantes.
Implementación del seguimiento de la opinión pública en el contexto de big data
La recopilación y el procesamiento de big data son la base del seguimiento de la opinión pública. Dominar la capacidad de captar datos y realizar el "valor agregado" de los datos mediante el "procesamiento" es una habilidad esencial para el seguimiento y análisis de la opinión pública. Gracias a la avanzada tecnología de recopilación desarrollada por el sistema Dorrico Public Opinion Data Analysis Station, los usuarios no solo pueden monitorear diversa información de texto, sino también configurar el sistema para recopilar y obtener el contenido de respuesta más reciente de algunos temas, y obtener su información detallada, como el número de vistas, el número de respuestas y los que responden, el tiempo de respuesta, etc. Muchos sitios web tienen estructuras complejas o utilizan Frame o JavaScript para escribir contenido dinámicamente, o tecnología Ajax para actualizar automáticamente el contenido en tiempo real, lo cual es difícil o imposible de manejar con la tecnología de rastreo común. El sistema puede clasificar automáticamente la información recopilada y monitoreada y presentarla en columnas como opinión pública negativa, relacionada conmigo, mi preocupación y seguimiento de temas, lo que permite a los usuarios ir directamente al tema y encontrar la información que necesitan lo antes posible. .
El estudio de las tendencias es el objetivo del seguimiento de la opinión pública en la era del big data. Ahora la gente puede extraer información de datos masivos, juzgar tendencias y mejorar la eficiencia, pero esto está lejos de ser suficiente.
La era de la explosión de la información requiere que las personas fortalezcan continuamente el análisis y la predicción de información relevante de la opinión pública y amplíen el enfoque del monitoreo desde la simple recopilación de datos efectivos hasta la investigación y el juicio en profundidad de la opinión pública. El sistema Doric Public Opinion Data Analysis Station realiza un seguimiento y monitoreo especial de la información negativa detectada, realiza un monitoreo regular de capturas de pantalla de las páginas de inicio clave y conserva evidencia en páginas especiales. El personal de monitoreo puede volver a seleccionar y clasificar la información identificada y clasificada automáticamente por el sistema, y puede exportar fácilmente informes diarios y semanales de opinión pública que contienen gráficos de datos de análisis de acuerdo con las necesidades del trabajo, lo que reduce la complejidad del análisis de datos de opinión pública y el mapeo estadístico. Para cierta información confidencial, el sistema también puede notificar rápidamente a los usuarios a través de mensajes de texto y correos electrónicos, lo que les permite captar de forma remota tendencias importantes de la opinión pública en cualquier momento.
La era del big data requiere una gran recopilación y un gran análisis, lo que es un reflejo de los requisitos de procesamiento y aplicación de datos en el contexto de la explosión de datos. Sin embargo, la recopilación y el seguimiento manuales tradicionales son obviamente difíciles de satisfacer las necesidades de datos y los requisitos de aplicación en el contexto de big data. El sistema de estación de análisis de datos de opinión pública de Doreco ha implementado con éxito funciones como monitoreo automático en tiempo real, análisis automático de contenido y alarmas automáticas de opiniones públicas masivas en Internet. Resuelve eficazmente el problema tradicional de implementación manual del monitoreo de la opinión pública, acelera la eficiencia de la supervisión de la opinión pública en línea, ayuda a las fuerzas organizacionales a organizar, analizar, guiar y responder a la información, mejora la capacidad de los usuarios para responder a emergencias de opinión pública en línea y Fortalece el análisis y juicio de “Big data” de “Internet”.