Proceso básico de visualización de datos
Fuente|Descripción del producto de datos
La primera impresión de la mayoría de las personas sobre la visualización de datos puede ser varios gráficos, como histogramas y barras en el módulo de gráficos de Excel Gráficos, gráficos de líneas, gráficos circulares, gráficos de dispersión, etc., no los enumeraré todos. Las anteriores son sólo realizaciones específicas de visualización de datos, pero la visualización de datos es más que eso.
La visualización de datos no es un simple mapeo visual, sino un proceso completo con el flujo de datos como línea principal, que incluye principalmente la recopilación de datos, el procesamiento y la conversión de datos, el mapeo visual, la interacción del usuario y la percepción del usuario. Un proceso de visualización completo puede verse como un proceso en el que el flujo de datos se transforma a través de una serie de módulos de procesamiento, y el usuario obtiene conocimiento e inspiración de los resultados del mapeo visual a través de la interacción visual.
Figura 1 Diagrama de flujo de visualización básico
Los módulos principales de visualización no son solo conexiones lineales simples, también hay conexiones entre dos módulos cualesquiera. Por ejemplo, diferentes métodos de recopilación, procesamiento y transformación de datos, codificación visual e interacción persona-computadora producirán nuevos resultados visuales, y los usuarios generarán nuevos conocimientos e inspiración a través de la percepción de nuevos resultados visuales.
A continuación, se explican varios pasos clave en el proceso principal de visualización de datos.
01
Recopilación de datos
La recopilación de datos es el primer paso en el análisis y visualización de datos. Como dice el refrán: "Es difícil para una mujer inteligente preparar una comida sin arroz". El método y la calidad de la recopilación de datos determinan en gran medida el efecto final de la visualización de datos.
Existen muchos métodos de clasificación para la recopilación de datos. Según la fuente de datos, se pueden dividir en recopilación de datos interna y recopilación de datos externa.
1. Recopilación de datos internos:
Se refiere a la recopilación de datos internos de la actividad comercial de una empresa, generalmente de bases de datos comerciales, como transacciones de pedidos. Si desea analizar los datos de comportamiento del usuario y el uso de la APLICACIÓN, necesita algunos datos de registro de comportamiento. En este momento, debe utilizar el método del "punto enterrado" para recopilar datos de la aplicación o la Web.
2. Recopilación de datos externos:
Se refiere a la cantidad de formas de obtener algunos datos externos de la empresa. El propósito específico incluye obtener datos de productos competitivos y obtener algunos datos de la industria publicados por. el sitio web oficial de las organizaciones oficiales. Para obtener datos externos, el método habitual de adquisición de datos es el "rastreador web".
Los datos obtenidos mediante los dos métodos de recopilación de datos anteriores son datos secundarios. Los datos recopilados a través de encuestas y experimentos son datos sin procesar, que se utilizan comúnmente en investigaciones de mercado y experimentos de investigación científica, y están fuera del alcance de esta discusión.
02
Procesamiento y conversión de datos
El procesamiento y la conversión de datos son los requisitos previos para la visualización de datos, incluido el preprocesamiento y la minería de datos.
Por un lado, los datos obtenidos en la recopilación de datos anterior inevitablemente contienen ruido y errores, y la calidad de los datos es baja, por otro lado, las características y patrones de los datos a menudo están ocultos en masa; Se pueden extraer datos que requieren una mayor extracción de datos.
Los problemas comunes de calidad de los datos incluyen:
1. Errores en la recopilación de datos, objetos de datos faltantes o inclusión de otros objetos de datos que no deberían incluirse.
2. Los valores atípicos en los datos son objetos de datos que tienen características diferentes de la mayoría de los demás objetos de datos del conjunto de datos.
3. Faltan valores y uno o más valores de atributo del objeto de datos, lo que da como resultado una recopilación de datos incompleta.
4. Los datos son inconsistentes, los datos recopilados son obviamente irrazonables o los valores de múltiples atributos son contradictorios. Por ejemplo, el peso es negativo o no existe una relación correspondiente entre el código postal y la ciudad.
5. La existencia de valores duplicados, el conjunto de datos contiene datos completamente duplicados o casi duplicados.
Es precisamente debido a los problemas anteriores que el análisis o la visualización directa de los datos recopilados a menudo induce a error a los usuarios a tomar decisiones equivocadas. Por lo tanto, limpiar y estandarizar los datos sin procesar recopilados es una parte integral del proceso de visualización de datos.
El espacio de visualización de datos suele ser bidimensional, como pantallas de computadora, pantallas grandes, etc. La tecnología de representación de gráficos tridimensionales resuelve el problema de mostrar objetos tridimensionales en un plano bidimensional.
Pero en la era del big data, los datos que recopilamos suelen tener características de 4V: volumen (masa), diversidad (diversidad), velocidad (alta velocidad) y valor (valor). Cómo extraer información valiosa de datos de alta dimensión, masivos y diversos para respaldar la toma de decisiones requiere, además de la limpieza y la eliminación de ruido, un procesamiento secundario de datos basado en fines comerciales.
Los métodos de procesamiento de datos más utilizados incluyen: reducción de dimensionalidad, agrupación y segmentación de datos, muestreo y otros métodos en estadística y aprendizaje automático.
03
Mapeo visual
Después de limpiar y eliminar el ruido de los datos y procesarlos de acuerdo con los fines comerciales, el siguiente paso es el mapeo visual. El mapeo visual es el núcleo de todo el proceso de visualización de datos, que se refiere al proceso de mapear la información de datos procesada en elementos visuales.
Los elementos visuales se componen de tres partes: espacio de visualización + marca + canal visual.
1. Espacio de visualización
El espacio de visualización de datos suele ser bidimensional. La visualización de objetos tridimensionales, a través de la tecnología de representación de gráficos, resuelve el problema de visualización en un plano bidimensional, como mapas circulares tridimensionales, mapas tridimensionales, etc.
Figura 2 Ejemplo de espacio visualizado
Marcas
La etiqueta es un mapeo de atributos de datos a elementos geométricos visuales, que se utiliza para representar la clasificación de atributos de datos.
Según los diferentes grados de libertad en el espacio, los signos se pueden dividir en puntos, líneas, superficies y cuerpos, con cero grados de libertad, grados unidimensionales, bidimensionales y tridimensionales. de libertad respectivamente. Por ejemplo, nuestros diagramas de dispersión, diagramas de líneas, diagramas de árboles rectangulares e histogramas tridimensionales comunes utilizan cuatro tipos diferentes de marcadores: punto, línea, superficie y cuerpo.
Figura 3 Ejemplo de tipo de etiqueta
3. Canal visual
El mapeo de valores de atributos de datos para etiquetar parámetros de presentación visual se denomina canal visual. que generalmente se usa para mostrar datos Información cuantitativa sobre atributos.
Los canales visuales comunes incluyen: posición, tamaño (longitud, área, volumen...), forma (triángulo, círculo, cubo...), dirección, color (tono, saturación, brillo), transparencia. ...) etc.
Los cuatro ejemplos gráficos de la Figura 3 hacen un buen uso de canales visuales como la posición, el tamaño y el color para presentar visualmente la información de los datos.
"Marca" y "canal visual" son dos aspectos de los elementos de codificación visual. Su combinación puede expresar información de datos de manera completamente visual, completando así el proceso de mapeo visual.
La próxima vez compartiré con ustedes sobre la prioridad de los elementos de codificación visual y cómo elegir expresiones visuales apropiadas en función de las características de los datos.
04
Interacción persona-computadora
El propósito de la visualización es reflejar los valores, características y patrones de los datos, y presentar la información detrás de los datos. de una manera más intuitiva y comprensible a los usuarios objetivo para ayudarles a tomar decisiones correctas.
Pero normalmente, los datos a los que nos enfrentamos son complejos y la información contenida en ellos es rica.
Si toda la información en los gráficos visuales se publica mecánicamente sin organización ni filtrado, no sólo hará que toda la página parezca particularmente abultada y confusa, sino que también carecerá de estética, también desdibujará el enfoque y distraerá; atención de los usuarios, reduciendo la capacidad del usuario para obtener información por unidad de tiempo.
Los métodos de interacción comunes incluyen:
1. Desplazamiento y zoom: cuando los datos no se pueden mostrar completamente en el dispositivo de resolución actual, el desplazamiento y el zoom son métodos de interacción muy efectivos. como detalles de información de mapas y gráficos de líneas. Sin embargo, los efectos específicos del desplazamiento y el zoom dependen no sólo del diseño de la página, sino también del dispositivo de visualización específico.
2. Control de mapeo de colores: algunas herramientas visuales de código abierto proporcionarán paletas de colores, como D3. Los usuarios pueden configurar los colores de los gráficos visuales a su gusto. Esto es relativamente común en herramientas de plataforma como el análisis de autoservicio, pero para algunos productos de visualización de desarrollo propio, los diseñadores profesionales generalmente son responsables de este trabajo, de modo que la comunicación visual se vuelva hermosa.
3. Control del método de mapeo de datos: se refiere a la elección por parte del usuario de los elementos de mapeo de visualización de datos. Normalmente, un conjunto de datos tiene varios conjuntos de características. Proporcionar a los usuarios un método de mapeo de datos flexible, que puede facilitarles la exploración de la información detrás de los datos de acuerdo con las dimensiones que les interesan. Esto se proporciona en herramientas de análisis visual comunes como Tableau y PowerBI.
4. Control de nivel de los detalles de los datos: como ocultar detalles de los datos, pasar el cursor o hacer clic.
05
Percepción del usuario
Los resultados visualizados sólo pueden transformarse en conocimiento e inspiración después de que sean percibidos por los usuarios.
Durante el proceso de percepción, los usuarios no sólo aceptan pasivamente gráficos visuales, sino que también obtienen información activamente a través de la interacción con el módulo visual.
Cómo permitir que los usuarios perciban mejor los resultados visuales y los conviertan en información valiosa para guiar la toma de decisiones, lo que implica demasiados factores influyentes, como la psicología, las estadísticas, la interacción persona-computadora, etc. .
El camino hacia el aprendizaje es largo y siempre estamos en el camino. Continuaremos compartiendo conocimientos en el campo de la visualización de datos, ¡así que recuerda continuar siguiéndonos!