¿Qué hace un almacén de datos?
Según el concepto de almacén de datos, el almacén de datos tiene las siguientes cuatro características:
1. La organización de los datos de la base de datos operativa está orientada a las tareas de procesamiento de transacciones, y cada sistema empresarial está separado, mientras que los datos del almacén de datos se organizan según determinadas áreas temáticas. Un tema es un concepto abstracto que hace referencia a aspectos clave que interesan a los usuarios a la hora de tomar decisiones utilizando un almacén de datos. Un tema suele ser relevante para más de un sistema de información operativa.
2. Las bases de datos operativas orientadas a transacciones suelen estar relacionadas con algunas aplicaciones específicas, y estas bases de datos son independientes entre sí y suelen ser heterogéneas. Los datos en el almacén de datos se obtienen mediante procesamiento, resumen y organización sistemáticos sobre la base de la extracción y limpieza de los datos originales dispersos de la base de datos. Se deben eliminar las inconsistencias en los datos de origen para garantizar que la información en el almacén de datos sea consistente y global sobre toda la empresa.
3. Relativamente estable. Los datos de la base de datos operativa generalmente se actualizan en tiempo real y se pueden cambiar de manera oportuna según sea necesario. Los datos del almacén de datos se utilizan principalmente para el análisis de la toma de decisiones empresariales, y las operaciones de datos involucradas son principalmente consultas de datos. Una vez que ciertos datos ingresan al almacén de datos, generalmente se almacenarán durante mucho tiempo, es decir, hay una gran cantidad de operaciones de consulta en el almacén de datos, pero hay muy pocas operaciones de modificación y eliminación. para ser cargado y actualizado periódicamente.
4. Reflejar los cambios históricos. La base de datos operativa se centra principalmente en los datos actuales dentro de un cierto período de tiempo, mientras que los datos en el almacén de datos generalmente contienen información histórica, registrando sistemáticamente la información de la empresa desde un cierto punto en el pasado (como el tiempo del almacén de datos). solicitud) hasta la presente fase. A través de esta información, se puede analizar y predecir cuantitativamente el proceso de desarrollo y las tendencias futuras de la empresa.
La construcción del almacén de datos empresariales se basa en el sistema empresarial empresarial existente y la acumulación de grandes cantidades de datos comerciales. El almacén de datos no es un concepto estático. La información sólo puede ser útil y eficaz si se proporciona de manera oportuna a los usuarios que la necesitan para que puedan tomar decisiones para mejorar las operaciones comerciales. Organizar, resumir y reorganizar la información y proporcionarla a los responsables de la toma de decisiones de gestión correspondientes de manera oportuna es la tarea fundamental del almacén de datos. Por tanto, desde la perspectiva de la industria, la construcción de un almacén de datos es un proyecto y un proceso.
Todo el sistema de almacenamiento de datos tiene una arquitectura de cuatro capas, como se muestra en la siguiente figura.
Arquitectura del sistema de almacenamiento de datos
Fuente de datos: es la base del sistema de almacenamiento de datos y la fuente de datos de todo el sistema. Suele incluir información interna e información externa. La información interna incluye varios datos de procesamiento comercial y varios datos de documentos almacenados en RDBMS. La información externa incluye diversas leyes y regulaciones, información de mercado, información de la competencia, etc.
Almacenamiento y gestión de datos: Es el núcleo de todo el sistema de almacenamiento de datos. La verdadera clave de un almacén de datos es el almacenamiento y la gestión de datos. El modelo de organización y gestión del data warehouse determina que se diferencia de las bases de datos tradicionales y también determina su forma de expresión de datos externos. Para decidir qué productos y tecnologías utilizar para construir el núcleo del almacén de datos, es necesario analizar las características técnicas del almacén de datos. Extraiga, limpie, integre eficazmente datos de sistemas empresariales existentes y organícelos según temas. Según la cobertura de datos, los almacenes de datos se pueden dividir en almacenes de datos de nivel empresarial y almacenes de datos de nivel departamental (a menudo llamados data marts).
Servidor OLAP: integre eficazmente los datos necesarios para el análisis, organícelos según un modelo multidimensional, realice análisis de múltiples ángulos y niveles y descubra tendencias. Su implementación específica se puede dividir en ROLAP, MOLAP y HOLAP. Los datos básicos y agregados de ROLAP se almacenan en RDBMS; los datos básicos y agregados de MOLAP se almacenan en bases de datos multidimensionales; los datos básicos de HOLAP se almacenan en RDBMS y los datos agregados se almacenan en bases de datos multidimensionales.
Herramientas de front-end: incluyen principalmente varias herramientas de informes, herramientas de consulta, herramientas de análisis de datos, herramientas de minería de datos y diversas herramientas de desarrollo de aplicaciones basadas en almacenes de datos o mercados de datos. Entre ellas, las herramientas de análisis de datos están dirigidas principalmente a servidores OLAP, y las herramientas de informes y de minería de datos están dirigidas principalmente a almacenes de datos.