¿Qué dominarás después de graduarte?
& gt& gtBI la materia prima son datos masivos;
& gt& gtBI los productos son información y conocimiento procesados a partir de datos;
& gt& gtBI impulsará estos productos a los tomadores de decisiones corporativas;
& gt& gtLos tomadores de decisiones empresariales utilizan los productos de Bichang para tomar decisiones correctas y promover el desarrollo corporativo;
Esto es inteligencia empresarial, es decir, Inteligencia empresarial: conectar datos con tomadores de decisiones y convertir datos en valor.
Las aplicaciones de BI se dividen en dos categorías: aplicaciones de información y aplicaciones de conocimiento. Sus características se muestran en la siguiente tabla:
Aplicaciones de inteligencia de negocios de información:
Se refiere. a la consulta de datos original, gráficos de informes, análisis multidimensional, visualización de datos y otras aplicaciones derivadas del procesamiento de datos. La característica común de estas aplicaciones es: transformar datos en información aceptable para los tomadores de decisiones y presentarla a los tomadores de decisiones.
Por ejemplo, procesar datos de transacciones bancarias en estados financieros bancarios.
Únicamente se encarga de proporcionar información y no analizará los datos de forma activa.
Por ejemplo, las herramientas de estados financieros bancarios no tienen la capacidad de analizar en profundidad la relación entre la rotación de clientes y las tasas de interés bancarias. Solo pueden confiar en que los tomadores de decisiones combinen información y obtengan conocimiento a través del pensamiento humano.
Aplicación de inteligencia empresarial del conocimiento:
Se refiere a la tecnología y herramientas de extracción de datos, la extracción de relaciones ocultas en los datos, el procesamiento de datos directamente en conocimiento a través de computadoras y su presentación a los tomadores de decisiones.
Explorará activamente las asociaciones de datos en los datos, descubrirá conocimientos ocultos que el cerebro de quien toma las decisiones no puede descubrir rápidamente y se los presentará a quien toma las decisiones en una forma comprensible.
(3) Descripción general de los principales modos de aplicación de la consulta de datos bidireccional
La consulta de datos es la aplicación de inteligencia empresarial más simple y pertenece al legado de los sistemas MIS. Aunque proviene de una escuela más antigua, sigue siendo la forma más directa para que los tomadores de decisiones obtengan información.
La interfaz de consulta de datos actual se ha deshecho por completo de la línea de comando SQL tradicional. Una gran cantidad de menús desplegables, cuadros de entrada, cuadros de lista y otros elementos, e incluso interfaces de arrastre del mouse, empaquetan las declaraciones SQL. de los culis de fondo en un fascinante sistema de recopilación de datos, pero esencialmente aún omite varios elementos de consulta de datos:
& gt& gt¿Qué verificar?
& gt& gt¿Dónde puedo consultar?
& gt& gtCondiciones de filtro
& gt& gtMétodo de visualización
Las aplicaciones de consulta de datos extranjeras actualmente populares han liberado por completo la flexibilidad de la consulta de datos. Como se muestra en la figura de la derecha, la interfaz de consulta de datos de Cognos ReportNet, Query Studio, permite a los usuarios definir elementos de consulta de datos arrastrando el mouse a través de una interfaz de navegador pura y mostrar datos de varias maneras, como informes y gráficos.
(4) Descripción general de los principales modos de aplicación de la declaración bidireccional.
Los informes son una de las aplicaciones de BI más populares en China y son inseparables del estado histórico de los informes en empresas e instituciones estatales de mi país. Los informes de mi país son famosos por sus formatos únicos, datos centralizados y reglas extrañas, lo que hace que innumerables herramientas de informes y herramientas de BI extranjeras se golpeen el pecho.
Los dos elementos de un informe son los datos y el formato. Sin formato, una aplicación de informes es casi idéntica a una aplicación de consulta de datos. Se puede decir que un informe debe presentar los datos consultados en un formato específico.
La aplicación de informes incluye dos módulos: presentación de informes y generación de informes. La presentación del informe permite a los tomadores de decisiones ver el informe y seleccionar los datos del informe a través de definiciones de condiciones, como seleccionar el año del informe, el departamento, la institución, etc. La producción de informes es para desarrolladores de informes. La flexibilidad de los desarrolladores de informes en la definición de formatos, mapeo de datos, métodos de cálculo enriquecidos, etc. afecta la calidad de las aplicaciones de informes de BI.
Es necesario aclarar que Microsoft Excel no es una herramienta de informes de BI porque Excel no tiene la capacidad de conectarse a fuentes de datos y, en el mejor de los casos, es una hoja de cálculo. Sin embargo, las poderosas funciones de formato de Excel convencieron a los creadores de informes a rendirse. Más tarde, casi todos los proveedores de BI incluso proporcionaron complementos para Microsoft Excel.
A través de complementos, Excel se puede conectar a fuentes de datos de BI y convertirse en una herramienta de informes de BI, convirtiendo al patito feo en un cisne.
5) Modelo de aplicación avanzada de BI: descripción general del procesamiento analítico en línea (OLAP)
OLAP, o procesamiento analítico en línea, es un nuevo método de observación de datos aportado por la inteligencia empresarial. tecnologías centrales de la inteligencia de negocios.
Sabemos que los datos se almacenan en tablas de datos en la base de datos. Por ejemplo, los datos de ventas de una tienda se almacenan en una tabla de datos como la siguiente:
Tiempo de ventas
Ubicación de ventas
Productos
Volumen de ventas
Ventas
2004-11-1
Beijing
Jabón
10
342,00
2004-11-6
Guangzhou
Naranja
30
123,00 p> p>
2004-12-3
Pekín
Plátano
20
12.00
2004 -12-13
Shanghái
Naranja
50
189,00
2005-1-8
Beijing
Jabón
10
342,00
2005-1-23
Shanghai
Cepillo de dientes
30
150,00
2005-2-4
Guangzhou
Cepillo de dientes
20
100.00
Los tomadores de decisiones a menudo quieren comprender información macro, como distribución, proporción y tendencia, como las siguientes preguntas:
& gt& gtSin tener en cuenta el factor tiempo, ¿cuál es la tendencia de ventas en Beijing?
& gt& gt¿Qué producto tuvo el mayor aumento de ventas en 2005 en comparación con 2004?
& gt& gt¿Cuál es la distribución de la proporción de ventas de varios productos en 2004? ...
Ante esta demanda, se debe realizar una gran cantidad de operaciones SUM mediante sentencias SQL. Se requiere SUM cada vez que se obtiene el resultado de una pregunta. Frente a los siete registros anteriores, podemos obtener fácilmente los resultados, pero cuando nos enfrentamos a millones o incluso miles de millones de registros, como los datos de llamadas de una empresa de telefonía móvil, se necesita mucho tiempo para calcular cada suma SQL. Los tomadores de decisiones suelen solicitar el análisis el primer día y esperar hasta el día siguiente para obtener los resultados del cálculo. Este método de análisis es "análisis fuera de línea" y es muy ineficiente.
Para mejorar la eficiencia del análisis de datos, la tecnología OLAP rompe por completo el modelo de navegación de datos basado en registros y divide los datos en "dimensiones" y "medidas":
& gt& gtLas dimensiones son una perspectiva de datos de observación, como "tiempo de ventas", "ubicación de ventas" y "producto" en el ejemplo anterior;
& gt& gtLa medición es el valor cuantitativo de una inspección específica, como "cantidad de ventas". " y "cantidad de ventas" en el ejemplo anterior "Cantidad de ventas";
De esta manera, podemos convertir la lista de datos del plano de planta anterior en un cubo de datos tridimensional:
El proceso de exploración de datos consiste en determinar un punto en este cubo y luego observar el valor de medición de este punto:
Por supuesto, el cubo de datos no se limita a tres dimensiones. Se utilizan tres dimensiones para ilustrar. El problema aquí es simplemente porque el límite que se puede expresar gráficamente son tres dimensiones.
Las dimensiones se pueden dividir en niveles. Por ejemplo, el tiempo se puede resumir día tras día como meses y años, los productos se pueden resumir como alimentos y necesidades diarias, y las ubicaciones se pueden resumir como el norte de China y el sur de China. . Los usuarios pueden profundizar y desplazarse hacia arriba a voluntad a lo largo de los niveles de dimensión:
De esta manera, puede deshacerse del límite de velocidad de SQL SUM, localizar rápidamente datos detallados que cumplan diferentes condiciones y obtener rápidamente una determinada nivel de datos resumidos. La tecnología OLAP proporciona a los tomadores de decisiones un método de exploración de datos eficiente, multiángulo y multinivel. El pensamiento del tomador de decisiones ya no está limitado por menús desplegables fijos y condiciones de consulta, sino que está dominado por el pensamiento del tomador de decisiones de obtener datos y combinar arbitrariamente ángulos de análisis y objetivos de análisis. Esto rompe con el análisis interactivo tradicional y la alta eficiencia, lo que convierte a OLAP en la aplicación principal de los sistemas de BI.
(*) La cuarta parte: modelo de aplicación avanzada de BI: visualización de datos y minería de datos
(6) Descripción general del modelo de aplicación de BI: visualización de datos
La aplicación de visualización de datos se compromete a presentar la información en tantas formas como sea posible. El propósito es permitir a los tomadores de decisiones obtener rápidamente el conocimiento contenido en la información, como tendencias, distribución, densidad y otros elementos, a través de la expresión intuitiva de gráficos. . Vale la pena mencionar que los proveedores de software SIG representados por MapInfo también están intentando integrar aplicaciones de BI. MapInfo fue el primero en proponer el concepto de inteligencia de ubicación, apoyándose en sistemas de información geográfica para mostrar los valores de los atributos de cada región, como la densidad de población, el valor de la producción industrial, el número de hospitales per cápita, etc. Esta aplicación de visualización se superpone parcialmente con la aplicación de visualización de datos de BI, formando un poderoso complemento y, a veces, coincidiendo entre sí en un proyecto.
La imagen de arriba es el producto Cognos Visualizer.
Este tipo muestra datos e información en una forma rica y casi sensacional, incluidos casi 50 gráficos de visualización, como mapas, gráficos circulares y gráficos en cascada, y proporciona métodos de visualización bidimensionales y tridimensionales. Todos los elementos gráficos son móviles. Por ejemplo, los usuarios pueden hacer clic en una provincia en el mapa para obtener información sobre las ciudades de esa provincia. Esta interactividad es una diferencia significativa entre BI y el software de generación de imágenes normal.
(7) Modelo de aplicación de inteligencia empresarial: descripción general de la minería de datos
La minería de datos es la aplicación de BI más avanzada porque puede reemplazar algunas funciones del cerebro humano.
La minería de datos es un caso especial de descubrimiento de conocimiento en datos estructurados.
El propósito de la minería de datos es utilizar computadoras para analizar grandes cantidades de datos, descubrir los patrones ocultos y el conocimiento entre los datos y presentarlos a los usuarios de una manera que los usuarios puedan entender.
Los tres elementos de la minería de datos son:
& gt& gtTecnología y algoritmo: en la actualidad, las tecnologías de minería de datos comúnmente utilizadas incluyen:
Detección automática de clústeres ( Automática detección de agrupamiento)
Árbol de decisión
Red neuronal (red neuronal)
& gt& gtDatos: debido a que la minería de datos consiste en extraer lo desconocido en el proceso conocido,
Por lo tanto, se requiere una gran cantidad de acumulación de datos como fuente de datos. Cuanto mayor sea la cantidad de acumulación de datos
, más puntos de referencia tendrá la herramienta de minería de datos.
& gt& gtModelo predictivo: es decir, desde
computadora se simula la lógica de negocio que requiere la minería de datos, que es la tarea principal de la minería de datos.
En comparación con las aplicaciones de BI basadas en información, las aplicaciones de BI basadas en conocimiento representadas por la minería de datos son actualmente inmaduras. Sin embargo, desde otra perspectiva, la minería de datos todavía tiene mucho espacio para el desarrollo en direcciones clave para la BI futura. desarrollo. Los fabricantes de aplicaciones de BI basadas en el conocimiento, como SAS y SPSS, han ido creciendo gradualmente en imagen y ocupando silenciosamente nuevos puntos de crecimiento de ganancias.
En la imagen de arriba, la famosa máquina de minería inteligente de IBM está analizando el comportamiento de consumo de los clientes. Puede analizar una gran cantidad de datos de clientes, luego dividir automáticamente a los clientes en varios grupos (detección automática de categorías) y mostrar las características de consumo de cada grupo, lo que permite a los tomadores de decisiones formular planes de promoción o planes publicitarios para los hábitos de consumo de diferentes clientes en una mirada.
Si las funciones anteriores se realizan únicamente a través de aplicaciones de BI de información, los tomadores de decisiones deberán realizar muchos análisis OLAP y consultas de datos basados en la experiencia, y es posible que no puedan descubrir reglas ocultas en los datos. Por ejemplo, para la clasificación de clientes anterior, para un banco con 4 millones de usuarios, sin herramientas de minería de datos, la gente estará agotada.
(8) Conceptos básicos de BI: tecnología de almacén de datos (almacén de datos)
Antes de comenzar a hablar de este tema, echemos un vistazo a la definición oficial de almacén de datos:
Un almacén de datos es un conjunto de datos orientado a temas, integrado, no volátil y que varía en el tiempo que se utiliza para respaldar las decisiones de gestión. Lo anterior es la definición oficial de almacén de datos.
Una "base de datos operativa" es como una base de datos para el sistema de contabilidad de un banco. Cada operación comercial (por ejemplo, si deposita 5 yuanes) se registra inmediatamente en esta base de datos. Con el tiempo, todos los datos acumulados se vuelven fragmentarios. Este tipo de base de datos se denomina "base de datos operativa" y está orientada a operaciones comerciales.
El "almacén de datos" se utiliza para el apoyo a las decisiones y está orientado al procesamiento analítico de datos, a diferencia de las bases de datos operativas. Además, el almacén de datos es una integración eficiente de múltiples fuentes de datos heterogéneas. Después de la integración, se reorganiza según temas e incluye datos históricos. Los datos almacenados en el almacén de datos generalmente no se modifican.
La relación entre base de datos operativa, almacén de datos y base de datos es como la relación entre C: y D: y el disco duro. La base de datos es el disco duro y la base de datos operativa es C:. Tanto las bases de datos operativas como los almacenes de datos se almacenan en bases de datos, pero el patrón de diseño y el propósito de la estructura de la tabla son diferentes.
Entonces, ¿por qué deberíamos agregar una capa de "almacén de datos" entre la base de datos operativa y BI?
En primer lugar, debido a que la base de datos operativa está ocupada día y noche, con una respuesta rápida al negocio como objetivo principal, no hay energía para satisfacer las necesidades de datos del lado de BI. suelen estar resumidos. Un grupo selecto de suma (xx) de xx consumirá muchos recursos al operar la base de datos y el procesamiento comercial no puede mantener el ritmo, lo que causará grandes problemas. Por ejemplo, si depositas 5.000 yuanes y diez minutos después descubres que el dinero no ha llegado, ¿qué piensas? ¿Debe ser el líder del banco mirando el gráfico circular?
En segundo lugar, existen muchas aplicaciones en las empresas, correspondientes a muchas bases de datos operativas, como bases de datos de recursos humanos, bases de datos financieras, bases de datos de documentos de ventas, bases de datos de inventario de productos, etc. Para proporcionar una vista panorámica de los datos, BI debe integrar estos datos dispares. Por ejemplo, para implementar un análisis OLAP que integre información de ventas e inventario, la herramienta de BI debe poder obtener datos de ambas bases de datos de manera eficiente. La forma más eficiente en este momento es integrar primero los datos en el almacén de datos y luego unificar las aplicaciones de BI del almacén de datos.
La integración de datos de bases de datos operativas dispersas en almacenes de datos es un tema amplio que ha dado origen al mercado de software de integración de datos.
Este tipo de integración no se trata simplemente de apilar tablas, sino de extraer las dimensiones de cada base de datos operativa, establecer las mismas dimensiones como * * * como * * dimensiones y luego unificar las tablas de la base de datos que contienen valores de medición específicos en varias según al tema. Una tabla grande (denominada "tabla de hechos"), establece una estructura de tabla de almacén de datos de acuerdo con el modelo de medición de dimensiones y luego realiza la extracción y transformación de datos. La extracción posterior generalmente implica la extracción incremental de nuevos datos cuando la carga operativa de la base de datos es relativamente pequeña (como temprano en la mañana), de modo que los datos en el almacén de datos se acumularán.
La mayoría de las aplicaciones de BI no requieren datos en tiempo real. Por ejemplo, los tomadores de decisiones pueden simplemente leer el informe semanal de la semana pasada todos los lunes. El 95% de las aplicaciones de BI no quieren ser realistas y permitir un retraso en los datos de 1 hora a 1 mes. Esta es la característica de aplicación del sistema de soporte de decisiones. Este intervalo de retraso es el tiempo de trabajo de la herramienta de extracción de datos. Por supuesto, las aplicaciones de BI suelen contener pocos requisitos de datos en tiempo real. En este momento, para estas necesidades especiales, solo necesita conectar directamente el software de consulta de BI a la base de datos comercial, pero la carga debe ser limitada y se deben prohibir consultas complejas.
Actualmente, todos los productos de bases de datos proporcionan una optimización especial para los almacenes de datos. Por ejemplo, al instalar una versión superior de MySQL, la secuencia de instalación le preguntará si desea que su instancia de base de datos esté orientada a transacciones o a soporte de decisiones. La primera es una base de datos operativa y la segunda es un almacén de datos (apoyo a la toma de decisiones, por favor). Para ambos formularios, la base de datos proporciona una optimización específica.
(9) Doble encaje
Ese es el conocimiento relevante sobre BI. Escribe un poco de estilo como conclusión.
Puntos clave del BI: BI no puede procesar datos no estructurados y solo puede procesar información digital. Sin embargo, en las empresas todavía hay una gran cantidad de datos no estructurados, como texto, medios de transmisión e imágenes. Estos datos también contienen mucho valor. Sin embargo, frente a estos datos, las herramientas de BI actuales son impotentes. IBM Intelligent Miner for Text es relativamente confiable, pero parece débil en el procesamiento de chino.
Proveedores y productos de BI:
En primer lugar, ¡conozcamos los grandes nombres en el extranjero! En términos de almacenes de datos, existen IBM DB2, Oracle, Sybase IQ, NCR Teradata, etc. Las aplicaciones de BI incluyen Cognos, Business Objects, MicroStrategy, Hyperion, IBM, etc. La minería de datos incluye IBM, SAS, SPSS, etc. El gigante Microsoft también ha entrado en el campo de BI, lanzando el servidor de análisis SQL Server, servicios de informes y otros productos relacionados con BI para hacerse con el primer puesto.
Tendemos a centrarnos únicamente en los jefes extranjeros de BI e ignorar al emergente ejército de BI de China. En la actualidad, los BI relativamente conocidos en China incluyen Power-BI de Aowei Zhidong, BlueQuery de Shangnan, Runqian Report, etc. Vale la pena mencionar especialmente que Power-BI de Aowei Zhidong es un BI estandarizado y tiene una cierta participación de mercado en China.
El desarrollo del mercado de inteligencia empresarial de China;
Un período de tiempo
La aplicación de la inteligencia empresarial en China
Antes de 2002
Una gran cantidad de software de BI se consideran trabajos de informes que pueden extraer datos de múltiples fuentes de datos. Los informes están en todas partes.
Cuando los vendedores de la empresa promocionaron el producto, presentaron a los usuarios: "Somos los más fuertes en el campo de BI ..." El efecto no fue bueno. Más tarde, el personal de ventas finalmente descubrió el truco y dijo; : "¿Qué somos?" ¡Se pueden hacer informes! Luego continuaron llegando pedidos.
2002-2003
Algunas personas perspicaces finalmente descubrieron el valor de OLAP. mejorar su competitividad, existe una necesidad urgente de aprovechar el valor de los datos históricos y descubrir rápidamente las ventajas de OLAP. En este momento, las ventas finalmente ya no necesitan decir "podemos hacer cualquier informe". Creo que es un informe
2004
Con la implementación de proyectos de BI cada vez más exitosos, finalmente surgió OLAP y una arquitectura de aplicación de BI razonable para consulta de datos + presentación de informes +. El análisis OLAP se formó en China. A menudo existen demandas de visualización de datos. En algunas empresas con competencia feroz y grandes cantidades de datos, han surgido aplicaciones de minería de datos. Ya no puede satisfacer las necesidades de muchas empresas, especialmente en industrias altamente competitivas y con alto riesgo como la banca, las comunicaciones y los valores. Ha surgido la demanda de minería de datos y las aplicaciones de BI finalmente han formado una integración de información + conocimiento.
Las herramientas de BI se encuentran con problemas;
*Formas complejas: China tiene las formas más complejas del mundo. El concepto de diseño de muestras de China es diferente al de Occidente. Los informes de China tienden a utilizar solo un informe para ilustrar un problema. Los informes de China tienden a centrarse en tantos temas como sea posible en un solo informe, lo que conduce directamente al formato complejo y al estilo extraño de los informes de China.
*Grande. datos: China es el país más poblado del mundo. Tomemos como ejemplo China Mobile. ¡Qué enorme cantidad de datos tiene una sola provincia! Las bases de datos extranjeras, los almacenes de datos y el software de aplicaciones de BI tienen una enorme capacidad de transporte de datos en China.
En Estados Unidos, una aplicación de análisis de clientes puede obtener resultados en dos segundos, pero en China, la cantidad de datos es tan grande que lleva más de dos segundos.
*Reescritura de datos: China es el país con los requisitos más extraños para los sistemas de BI del mundo. Inicialmente, los sistemas de BI se basaban en el principio de reproducir fielmente los datos originales, pero este principio encontró dificultades en China. Muchos líderes han solicitado la modificación de datos. "Las cifras del informe no se ven bien, pero definitivamente se pueden cambiar. ¡A veces es necesario ajustarlas para que los superiores puedan verlas!", dijo un líder. Actualmente, sólo hay dos productos de BI que pueden cumplir con este requisito: Microsoft y MicroStrategy. Microsoft conoce muy bien el mercado chino.