Granularidad de datos del almacén de datos
1. Etapa de planificación
"Planificación": pensar y considerar las cuestiones generales, básicas y de largo plazo del futuro, y diseñar un conjunto completo de planes de acción para el futuro. . En la etapa de planificación, primero se realiza una estimación aproximada de la cantidad de datos. El propósito de la estimación es captar la cantidad de datos en un rango en el almacén de datos. El segundo paso es predecir la granularidad requerida para futuras aplicaciones en el data mart, y el almacén de datos almacena la granularidad mínima utilizada por el data mart.
1.1. Es muy importante establecer un buen mecanismo de retroalimentación en bucle.
En primer lugar, debemos establecer un mecanismo de bucle de retroalimentación completo. El almacén de datos se construye teniendo en cuenta requisitos confusos y la granularidad no se puede planificar de inmediato. Primero importe una pequeña cantidad de datos, cree algunas aplicaciones y envíelas a los usuarios, escuche las opiniones de los usuarios y ajuste la granularidad en función de las opiniones de los usuarios.
1.2. Una estimación aproximada de los datos almacenados es muy útil para quienes diseñan la arquitectura.
Estime aproximadamente el volumen de datos del almacén de datos y planifique la arquitectura del almacén de datos. Si los datos tienen solo 10,000 filas, entonces el almacén de datos utiliza un nivel menor de granularidad para el almacenamiento de datos y todos los datos detallados se almacenan en el almacén de datos. Si hay 1.000.000 de filas de datos detallados, se requiere un resumen preliminar de los datos que ingresan al almacén de datos. Con 100 mil millones de filas, el almacén de datos no sólo requiere un alto nivel de granularidad, sino que también puede mover gran parte de los datos a una memoria desbordada.
El método de estimación es el siguiente:
1.3. Es necesario predecir la granularidad de los datos que se podrán utilizar en el data mart.
Para que todos los data marts se completen correctamente, los datos en el almacén de datos deben tener el nivel mínimo de granularidad requerido para todos los data marts.
Los resultados de la fase de planificación son una base importante para la construcción del almacén de datos. En la etapa de planificación, sólo teniendo un conocimiento profundo de la estructura organizacional, el tamaño de los datos y las aplicaciones posteriores podremos hacer planes, tener una predicción de posibles resultados y evitar problemas que puedan surgir en el diseño.
2. Fase de Construcción
2.1 Con base en los resultados de espacio estimado, se pueden seleccionar los dispositivos de almacenamiento en función del tamaño de los datos en el diseño de la arquitectura. Cuántos dispositivos de almacenamiento de acceso directo se necesitan y si se requiere un diseño de granularidad dual.
2.2. Diseñar la gestión de datos desbordados. Los datos derramados se refieren a datos obsoletos a los que no se accede con frecuencia en el almacén de datos y se trasladan a un almacenamiento con mayor capacidad de almacenamiento y velocidad de acceso más lenta. La gestión de datos desbordados ayuda a indexar y localizar datos históricos y recuperar datos rápidamente.
El administrador de almacenamiento multimedios y el monitor de actividad de datos pueden gestionar eficazmente los datos desbordados. El movimiento de datos entre el almacenamiento en disco y el almacenamiento de alta capacidad y baja velocidad se controla mediante un software llamado Cross-Media Storage Manager (CMSM). Monitor de actividad de datos para determinar a qué datos se accede y a cuáles no. Data Activity Monitor puede proporcionar información sobre dónde se almacenan los datos.
2.3.La determinación de la granularidad durante la implementación del data warehouse es un proceso recíproco. Utilizando el método del circuito de retroalimentación establecido en la etapa de planificación, puede obtener comentarios de los analistas y optimizar continuamente el almacén de datos.
Como puede verse en la figura, el establecimiento exitoso de un almacén de datos no se puede lograr sin la cooperación de analistas. Los constructores deben escuchar constantemente a los analistas. Los analistas no saben lo que necesitan al construir un almacén de datos. Sólo viendo los resultados del análisis final podrán decirle al personal del almacén de datos qué es realmente útil. Para obtener comentarios de manera efectiva, puede consultar los siguientes consejos:
Construya rápidamente un pequeño subconjunto del almacén de datos y escuche atentamente los comentarios de los usuarios;
? Utilice el método prototipo;
? Hacer referencia a las experiencias de otras personas;
? Trabajar con usuarios experimentados;
? Tomar como referencia los requisitos funcionales existentes de la empresa;
? Celebre reuniones periódicas sobre la construcción del almacén de datos.
3. Dé un ejemplo de granularidad en un banco pequeño.
3.1. Nivel de granularidad en un entorno bancario. La siguiente imagen es un ejemplo de granularidad de datos bancarios.
La capa operativa del banco almacena datos con granularidad diaria. El sistema comercial de cada banco solo almacena los detalles de la actividad de las transacciones de los últimos 60 días, lo que hace que sea conveniente para los usuarios consultar los detalles de la información de las transacciones de los últimos dos meses. Durante este período, los usuarios están más preocupados por los detalles de los datos de las transacciones.
La capa de almacén de datos agrega datos en datos resumidos con granularidad mensual. Con base en la información de transacciones mensuales de cada cuenta, el banco resume los datos de los últimos diez años y los almacena en el dispositivo de almacenamiento directo para consultas y acceso de alta velocidad. A los usuarios no les importan los detalles de las transacciones durante un largo período de tiempo, pero necesitan realizar consultas y obtener resultados rápidamente. En este momento, proporcionar datos resumidos mensuales puede satisfacer las necesidades de los usuarios.
Todos los datos históricos se almacenan en el área de almacenamiento desbordado diariamente. La cantidad de datos es enorme y la frecuencia de acceso es extremadamente baja. Los bancos generalmente no aceptan solicitudes de consultas de datos detalladas durante diez años. Si algunas circunstancias especiales requieren consultar datos históricos de más de diez años, el tiempo de consulta será bastante lento.
4. Resumen
Determinar la granularidad del almacén de datos es un proceso difícil y requiere un nivel adecuado, ni demasiado alto ni demasiado bajo.
La selección del nivel de granularidad se basa en gran medida en el sentido común. Planifique mucho antes de la construcción, estime la cantidad de datos y establezca el sistema de retroalimentación correspondiente. Durante la implementación, los analistas primero construyen y utilizan una pequeña parte del almacén de datos. Luego escúchelos y realice los ajustes apropiados al nivel de granularidad en función de sus comentarios.