Explica detalladamente cómo se formó la idea de big data y sus dimensiones de valor.
Por ejemplo, en términos de economía, el Sr. Huang Renyu descubrió la aplicación generalizada de la "teoría matemática" (es decir, análisis cuantitativo) en su análisis de la economía de la dinastía Song (desafortunadamente, la reforma de Wang Anshi había sin principio pero sin fin). Otro ejemplo es el ejército. Independientemente de si es verdadero o falso, las ideas de análisis cuantitativo detrás del segmento de "aprendizaje de la extracción de datos de Lin Biao" sin duda tienen su base en la realidad e incluso se remontan a hace más de 2.000 años. Sun Bin fabricó los datos de "reducir 100.000 estufas a 50.000 estufas y luego a 30.000 estufas" y utilizó los hábitos de análisis cuantitativo de Pang Juan para atraparlo y matarlo.
En las décadas de 1950 y 1960, las cintas reemplazaron a las máquinas de tarjetas perforadas, lo que provocó una revolución en el almacenamiento de datos. La unidad de disco descubrió inmediatamente que el mayor espacio imaginativo que aportaba no era la capacidad, sino la capacidad de leer y escribir aleatoriamente, lo que de repente liberó el modo de pensamiento de los trabajadores de datos y comenzó la expresión y gestión no lineal de los datos. Surgieron las bases de datos, desde bases de datos jerárquicas (diseñadas por IBM para los alunizajes del Apolo y todavía utilizadas por CCB), hasta bases de datos en malla y, ahora, bases de datos relacionales generales. Los sistemas de soporte a la decisión (DSS) se originaron a partir de la gestión de datos y evolucionaron hacia la inteligencia empresarial (BI) y los almacenes de datos en la década de 1980, abriendo el camino al análisis de datos, es decir, dando significado a los datos.
En esa época, la aplicación más poderosa de gestión y análisis de datos eran los negocios. El primer almacén de datos se construyó para Procter & Gamble y el primer almacén de datos de terabytes estaba en Walmart. Walmart tiene dos aplicaciones típicas: una es la optimización de la cadena de suministro basada en retaillink, que comparte datos con los proveedores para guiar todo el proceso de diseño, producción, fijación de precios, distribución y marketing del producto, mientras que los proveedores pueden optimizar el inventario y reponer los productos de manera oportuna. El segundo es el análisis de la cesta de la compra, que a menudo se dice que añade cerveza y pañales. Casi todos los libros de marketing sobre cerveza y pañales son convincentes. Déjame decirte que fue compilado por un gerente de Teradata y nunca antes había sucedido en la historia de la humanidad. Sin embargo, es positivo educar primero al mercado y luego cosechar.
Tesco, superada sólo por Walmart, se centra en la gestión de relaciones con los clientes (CRM), segmentando grupos de clientes, analizando su comportamiento e intenciones y realizando marketing de precisión.
Todo esto ocurrió en los años 90. En la década de 2000, la investigación científica produjo grandes cantidades de datos, como observaciones astronómicas y colisiones de partículas. El cuarto paradigma fue propuesto por el gurú de las bases de datos Jim Gray y es una mejora de la metodología de datos. Los primeros tres paradigmas son el experimento (Galileo fue arrojado desde la torre inclinada), la teoría (Newton se inspiró en una manzana y formó las leyes clásicas de la física) y la simulación (la aceleración de partículas es demasiado costosa y las pruebas nucleares son demasiado sucias, por lo que en su lugar se utiliza el cálculo). El cuarto paradigma es la exploración de datos. En realidad esto no es nuevo. Kepler ajustó órbitas elípticas basándose en observaciones previas de posiciones planetarias; este es el método de datos. Pero en la década de 1990, había demasiados datos de investigación científica y la exploración de datos se convirtió en un tema de investigación destacado. En las disciplinas actuales, existen hermanos gemelos, la informática XX y la informática XX. El primero es un paradigma de simulación/computacional y el segundo es un paradigma de datos, como la biología computacional y la bioinformática. A veces, la informática XX incluye paradigmas de datos, como la sociología computacional y la publicidad computacional.
En 2008, Chris Anderson (el autor de la teoría de la cola larga) escribió un artículo "El fin de la teoría" en la revista "Wired", que causó un gran revuelo. Su punto principal es que con los datos no hay necesidad de un modelo, o es difícil obtener un modelo interpretable, por lo que la teoría representada por el modelo no tiene sentido. Déjame hablarte de datos, modelos y teorías. Primero echemos un vistazo a una imagen aproximada.
Primero, recopilamos datos de tres puntos mientras observamos el mundo objetivo. A partir de estos datos, podemos tener una hipótesis teórica sobre el mundo objetivo, que puede representarse mediante un modelo simplificado, como un triángulo. Puede haber más modelos, como cuadrilátero y pentágono. A medida que avanzaba la observación, se acumularon dos puntos más. En ese momento, descubrí que tanto el modelo de triángulo como el de cuadrilátero eran incorrectos, así que determiné que el modelo era un pentágono. El mundo reflejado por este modelo estaba en ese pentágono, pero no sabía que el tiempo real era redondo.
El problema en la era del big data es que los datos son grandes y complejos, y ya no se pueden expresar mediante modelos simples y claros. De esta manera, los datos mismos se convierten en el modelo. En rigor, los datos y las matemáticas aplicadas (especialmente la estadística) han sustituido a la teoría. Anderson señaló el Traductor de Google como ejemplo. Los modelos estadísticos unificados reemplazan teorías/modelos de varios lenguajes (como la gramática). Si puede traducir del inglés al francés, puede traducir del sueco al chino, siempre que tenga datos del corpus. Google puede incluso traducir Clayton (el idioma en el que está compilado StarTrek). Anderson planteó la cuestión de la correlación más que de la causalidad. Schoenberg (en adelante denominado Lao She) simplemente recogió la sabiduría de otros.
Por supuesto, la comunidad científica no está de acuerdo con el fin de la teoría y cree que la intuición, la causalidad y la explicabilidad de los científicos siguen siendo factores importantes para los avances humanos. Con los datos, las máquinas pueden descubrir partes desconocidas del panorama actual del conocimiento. Sin un modelo, el límite superior del mapa de conocimiento es la potencia informática de la máquina que aumenta linealmente y no se puede expandir a nuevos espacios. En la historia de la humanidad, cada salto hacia adelante en la expansión del ámbito del conocimiento fue la primera trompeta que tocaron los genios y sus teorías.
Alrededor de 2010, llegó la ola de big data y estos debates quedaron rápidamente sumergidos. Si observamos las tendencias de Google, la palabra "bigdata" saltó a la vista en ese momento. Hay varios trompetistas, uno es IDC, que cada año le da a EMC un informe de digitaluniverse, subiendo a la categoría de Zebyte (para que os hagáis una idea, el disco duro actual es TB, 1000 tera = 1 disparo, ¿cuáles son los datos de Alibaba? y Facebook Cien disparos, 1000 disparos = 1 disparo, Baidu es de un solo dígito. Uno es McKinsey, que publicó "Big Data: la próxima frontera de la innovación, la competencia y la productividad". Los escritores importantes son Ken Nice, él y Lao She están en la misma era de big data. Otro es Gartner, quien inventó 3V (grande, complejo, rápido). De hecho, este 3V se compiló en 2001, pero era nuevo. en el contexto de la interpretación de big data.
En mi país, el Sr. Huang y el Sr. Huang también comenzaron a llamar la atención sobre big data alrededor de 2011.
En 2012, Zi Pei. El libro "Big Data" se dirigió a los funcionarios del gobierno de educación. "Big Data Era" de Lao She y Cukier propusieron tres ideas principales, que ahora se consideran pautas, pero no como verdades universales. No lo hagas. Para ser honesto, 1. No hay un conjunto completo de datos y los datos son una isla. 2. El conjunto completo es demasiado caro en vista de la baja densidad de información de los grandes datos. , la relación insumo-producto no es necesariamente buena; 3. El muestreo sigue siendo útil en el análisis macro, y el enfoque de Gallup de utilizar 5.000 muestras para derrotar a un millón de encuestas sigue siendo de importancia práctica. 4. El muestreo debe ser aleatorio y representativo. con trabajadores migrantes en el tren. Todos compraron votos, y este no es un buen muestreo. No es bueno realizar solo una encuesta por muestreo a través de teléfonos fijos (los teléfonos móviles son los más populares), y el muestreo basado en Twitter extranjero sí lo es. no completamente representativo (excluyendo a los ancianos); 5. Muestreo La desventaja es que hay una desviación de un pequeño porcentaje e incluso se pierde la señal del cisne negro. Por lo tanto, la cantidad total es la primera opción si el conjunto completo de. Los datos existen y se pueden analizar. La calidad es desigual. Además, la hibridación se debe a la precisión. Es una buena actitud adoptar la hibridación (un fenómeno tan objetivo), pero eso no significa que la limpieza de datos sea mayor. Lao citó la conclusión de Google de que los algoritmos complejos con una pequeña cantidad de datos de alta calidad fueron derrotados por algoritmos simples con una gran cantidad de datos de baja calidad para demostrar que la investigación de Peter es el análisis de texto en red, lo cual es cierto. . Sin embargo, el aprendizaje profundo de Google ha demostrado que esto no es del todo cierto. Para datos de voz e imágenes con dimensiones de información ricas, se requieren una gran cantidad de datos y modelos complejos. no la causalidad. Para un gran número de decisiones pequeñas, la correlación es útil, como las recomendaciones personalizadas de Amazon, para pequeños lotes de decisiones importantes, la causalidad sigue siendo importante.
Al igual que la medicina china, sólo llega a la etapa correspondiente, pero no hay explicación y no se puede concluir que ciertas cortezas y caparazones de insectos sean la causa de la cura. Después de descubrir la relevancia de la medicina occidental, se debe realizar un ensayo controlado aleatorio para eliminar todos los factores de interferencia que puedan conducir al "efecto curativo" y obtener causalidad e interpretabilidad. Lo mismo ocurre con las decisiones empresariales. La relevancia es sólo el comienzo. Reemplaza las suposiciones y la intuición que nos hacen rascar la cabeza, y el proceso posterior de verificación de la causalidad sigue siendo importante.
También es una necesidad ética realizar algunos resultados de análisis de big data en términos de relevancia, y la motivación no representa el comportamiento. Lo mismo ocurre con el análisis predictivo, de lo contrario, si la policía predice que la gente cometerá delitos y las compañías de seguros predicen que la gente enfermará, la sociedad estará en grandes problemas. Los algoritmos de big data han afectado enormemente nuestras vidas, lo que a veces resulta bastante triste. Es el algoritmo que cree que puedes obtener el dinero, pidas prestado o no. Cada vez que Google ajusta su algoritmo, muchas empresas online se verán afectadas debido a una clasificación más baja.
El tiempo se acaba. Publicaré algo sobre la dimensión del valor. Un punto muy importante en la idea de big data es que además de la inteligencia en la toma de decisiones, también está el valor de los datos en sí. No entraré en detalles sobre este punto. Para citar a Jack Ma, "El punto de partida de la información es que creo que soy más inteligente que los demás; el punto de partida de los datos es que los demás son más inteligentes que yo; la información es cuando editas los datos y se los das a otros; los datos es cuando lo recopilas y se lo das a personas que son más inteligentes que tú”. ¿Qué pueden hacer los big data? ¿Cómo se asigna el valor V a los otros cuadrantes 3V y espacio-tiempo? Hice un dibujo:
y publiqué una explicación. "Ver las sutilezas" y "conocer" en la dimensión del espacio volumétrico. Los datos pequeños son sutiles y personales. Una vez lo describí en "The Grandmaster" como "verse a uno mismo"; los big data comprenden y reflejan las características y tendencias de la naturaleza y los grupos. Lo comparo con "ver el mundo y ver a todos los seres sintientes". "Zhe" promueve "micro" (como segmentar a la multitud en cubos) y atrae "micro" (como recomendar las preferencias de personas similares a individuos). "Micro" y "Zhu" también reflejan la dimensión temporal. El valor individual es mayor cuando inicialmente decae y eventualmente degenera en valor colectivo con el tiempo.
"Ahora" y "Borrar todo" en la dimensión temporal de la velocidad. En el origen del tiempo, el momento presente es la sabiduría en tiempo real en un destello de inspiración. Combinando el pasado (eje negativo) y prediciendo el futuro (eje positivo), todos podemos entender, es decir, podemos obtener la sabiduría eterna. La descripción del Rey Mono real y falso en Journey to the West es que uno "conoce el cielo, la tierra y los cambios", y el otro "conoce el cielo, la tierra y el antes y el después", que corresponden exactamente entre sí. Para lograr el conocimiento universal, necesitamos un análisis general, un análisis prescriptivo y un análisis disposicional (qué acciones deben tomarse para que el futuro establecido suceda).
"Análisis de errores" y "comprensión de significado" en la dimensión del espacio variante. Basándonos en datos masivos y heterogéneos de múltiples fuentes, podemos identificar y filtrar el ruido, detectar y llenar vacíos y eliminar falsedades manteniendo la verdad. La comprensión ha alcanzado un nivel superior, extrayendo semántica de datos no estructurados, permitiendo que las máquinas escudriñen los pensamientos de las personas, alcanzando un nivel que el análisis de datos estructurados no podía alcanzar en el pasado.
Veámoslo primero. Desde hace mucho tiempo se llevan a cabo investigaciones sobre las leyes de los fenómenos macroscópicos. El conocimiento de big data tiene dos nuevas características. Uno es del muestreo al total. Por ejemplo, la encuesta de CCTV "¿Estás contento?" del año pasado se basó en un muestreo de la calle. La conclusión de la reciente Encuesta sobre la vida económica de China sobre la clasificación de ciudades felices se basó en una muestra de 6,543,8 millones de cuestionarios (654,3807 preguntas). El índice de felicidad creado por Tsinghua Behavioral and Big Data Laboratory (tras la participación de Xiong Ting, yo y muchos amigos en este grupo) se basa en el conjunto completo de datos de Sina Weibo (gracias a Lao Wang). Estos datos son expresiones naturales de las personas (en lugar de respuestas pasivas a los cuestionarios) y tienen contexto, por lo que son más auténticos y más interpretables. ¿Es el aire, los precios de la vivienda o la educación lo que hace infelices a Beijing, Shanghai y Guangzhou? ¿Es más fácil difundir emociones positivas o negativas en Weibo? Los datos te dicen la respuesta. El "Encuesta Económica y de Vida de China" dice que "podemos escuchar incluso la voz más pequeña", lo cual es una exageración. Los métodos de muestreo y análisis estadístico tradicional utilizan algunos modelos simplificados para la distribución de datos, ignorando anomalías y colas largas. El análisis general puede ver el cisne negro y escuchar el sonido de la larga cola.
Otra característica es la transición de lo cualitativo a lo cuantitativo. La sociología computacional es la aplicación del análisis cuantitativo en sociología. Una ola de matemáticos y físicos se convirtieron en economistas y liberales, y ahora también pueden optar por convertirse en sociólogos.
El índice Guotai Junan 3I también es un ejemplo. Sobre la base de los datos de cientos de miles de usuarios, que reflejan principalmente el nivel de actividad inversora y los ingresos por inversiones, se establece un modelo cuantitativo para inferir la prosperidad general de las inversiones.
Mirando al nivel micro, creo que la verdadera ventaja diferenciadora del big data reside en el nivel micro. Las ciencias naturales son macro, concretas, micro y abstractas, por lo que los big data son muy importantes. Prestamos más atención a las ciencias sociales, es decir, comenzamos con lo micro y concreto, y luego lo macro y abstracto. Xu Xiaonian simplemente cree que la macroeconomía es pseudociencia. Si el mercado es la suma de acciones individuales, lo que vemos es un cuadro abstracto que no podemos entender. A través de la segmentación de clientes, se puede formar gradualmente una imagen realista que es más o menos comprensible, pero es un mosaico. Luego, a través de la diferenciación e incluso el posicionamiento de los individuos, se puede formar una imagen de alta definición. Cada uno de nosotros vive ahora en el cubo de un minorista (Tesco inventó este concepto, como se mencionó anteriormente), que simplemente refleja antecedentes, como ingresos altos y bajos, y luego refleja comportamientos y estilos de vida, como "tacañero" y "correcto". -hacer clic en grupo" (comparación con el botón derecho). A su vez, nuestros consumidores también quieren un respeto personalizado y esperanzas nobles de convertirnos en los nobles que somos hoy.
Comprender y dominar a tus clientes es más importante que nunca. Obama ganó en big data porque sabía que George Clooney es el ídolo de las mujeres de entre 40 y 49 años en Cisjordania, y Sarah Jessica Parker (la protagonista de "Sex and the City") es el ídolo de las mujeres de su misma edad en Cisjordania. Banco del Este. También necesita desglosar qué televisión ve cada condado en el estado indeciso en cada edad y momento, la tendencia de voto de los votantes en el estado indeciso (Ohio) durante un período de tiempo y los votantes indecisos en Reddit.
Las empresas deben pasar de estar orientadas al producto a estar orientadas al cliente (comprador) o incluso al usuario, de centrarse en los antecedentes del usuario a centrarse en el comportamiento, las intenciones y las intenciones del usuario, y de centrarse en la formación. de transacciones Pasar a centrarse en cada interacción/punto de contacto. La ruta por la que los usuarios encuentran mis productos determina lo que han hecho antes y qué comentarios tienen después de comprarlos, ya sea a través de páginas web, QQ, Weibo o WeChat.
Ahora hablemos del tercero. El tiempo es dinero y el comercio de acciones es como un pez rápido que se come a un pez lento. Con el software gratuito de negociación de acciones, hay un retraso de unos pocos segundos, mientras que la negociación programática de alta frecuencia, que representa entre el 60% y el 70% del volumen de negociación de EE. UU., encontrará oportunidades comerciales de milisegundos de tan solo 1 centavo. El tiempo es vida. La supercomputadora de la Administración Nacional Oceánica y Atmosférica emitió una advertencia de tsunami nueve minutos después del terremoto 311 en Japón. Ya era demasiado tarde. tiempo u oportunidad. Lo que ahora se llama análisis de la cesta de la compra no es en realidad una cesta de la compra real, sino un pequeño recibo prestado. Lo realmente valioso es que mientras el cliente sigue cargando la cesta de la compra, navegando, probándose y seleccionando artículos, sus elecciones se ven influenciadas en cada contacto. El valor de los datos tiene una vida media. El valor personalizado es mayor cuando está más actualizado y gradualmente se degrada hasta convertirse únicamente en valor colectivo. La sabiduría del momento es pasar de tallar un barco a buscar una espada y saber que es el momento adecuado. Resulta que el censo de 10 años trataba de intentar encontrar una espada, pero el mapa de migración actual de Baidu lo mostró cuando algo sucedió en Dongguan. Por supuesto, es posible que el actual no sea del todo exacto. De hecho, sin más y más datos, una interpretación apresurada del diagrama de migración de Baidu puede dar lugar a malentendidos.
El cuarto está a salvo. El tiempo es limitado, así que hagámoslo simple. En otras palabras, solo sabemos que Dongfeng es un análisis predictivo. Determina el objetivo de tomar prestadas flechas y prescribe la receta para tomar prestados barcos de paja. Necesitamos análisis de recetas para mejorar la capacidad de respuesta, reducir la deserción y atraer nuevos clientes.
La identificación de errores consiste en utilizar datos de múltiples fuentes para filtrar el ruido, comprobar si hay fugas y llenar vacíos, y eliminar falsedades conservando la verdad. Un ejemplo es que el PIB combinado de más de 20 provincias y ciudades supera el PIB nacional. Nuestro GPS tiene un error de decenas de metros, pero combinado con datos de mapas puede ser muy preciso. El GPS no tiene señal en los edificios altos de las ciudades, por lo que se puede combinar con la navegación inercial.
La pequeña I involucra la inteligencia artificial en big data. Este es un gran tema y no se ampliará. Publicar un párrafo de mi artículo: Algunas personas dicen que las personas son insustituibles en el campo de "Xiao Yi". Este es un hecho de la era anterior al big data.
"Moneyball" trata sobre la contribución del análisis cuantitativo y la predicción al béisbol. Tiene malentendidos en el contexto de big data: primero, no son big data en realidad, sino un pensamiento y método de datos existentes; segundo, ignora intencionalmente o no el papel de los exploradores; Desde la perspectiva del lector, el gerente general de los Oakland Athletics, Billy Beane, reemplazó la exploración con un análisis cuantitativo. De hecho, al utilizar herramientas cuantitativas, Bean también aumentó el costo del reconocimiento. La medalla militar es mitad máquina y mitad humana, porque los exploradores miden indicadores cualitativos de los atletas (como la competitividad, la resistencia a la presión, la fuerza de voluntad, etc.) que no pueden describirse mediante unos pocos indicadores cuantitativos estructurados. Los grandes datos lo cambian todo. Registrar inconscientemente las huellas digitales de las personas y mejorar la capacidad del aprendizaje automático (especialmente el aprendizaje profundo) para comprender los pensamientos puede cambiar gradualmente las desventajas de las máquinas. Este año vimos análisis de sentimiento, análisis de valor y caracterización personal basados en big data. Cuando se aplican a los recursos humanos, reflejan más o menos el compromiso del scout.