¿Cómo monitorear la operación y el mantenimiento?
①La esencia del sistema de monitoreo es garantizar la estabilidad del negocio descubriendo fallas, resolviendo fallas y previniendo fallas.
②El sistema de monitoreo generalmente incluye seis módulos: recopilación de datos, detección de datos, gestión de alarmas, gestión de fallas, gestión de vistas y gestión de monitoreo. La recopilación de datos, la detección de datos y el procesamiento de alarmas son los circuitos cerrados de monitoreo más pequeños. Sin embargo, si realmente desea construir un buen sistema de monitoreo, módulos como el circuito cerrado de administración de fallas, la administración de vistas y la administración de monitoreo también son indispensables.
Primero, recopilación de datos
1. Modo de recopilación
Los métodos de recopilación de datos generalmente se dividen en modo agente y modo no agente;
El modo de agente incluye recopilación de complementos, recopilación de scripts, recopilación de registros, recopilación de procesos, sonda APM, etc.
El modo sin proxy incluye adquisición de protocolo general, pruebas de acceso telefónico web, interfaz API, etc.
2. Tipos de datos
Existen tres tipos de datos de seguimiento: indicadores, registros y datos de seguimiento.
Los datos de los indicadores son elementos de seguimiento numérico, identificados principalmente por dimensiones.
Los datos de registro son datos de caracteres, principalmente para encontrar información de palabras clave para el monitoreo.
El seguimiento de la retroalimentación de datos es el proceso de rastrear un flujo de datos en el enlace y observar si el rendimiento que requiere mucho tiempo en el proceso es normal.
3. Frecuencia de recogida
Existen tres tipos de frecuencias de recogida: minutos, minutos y aleatoria. Una frecuencia de cobro común son los minutos.
4. Adquisición y transmisión
La adquisición y transmisión se pueden clasificar por inicio de transmisión o enlace de transmisión.
Según el inicio de la transmisión, existen pull pull activo y push push pasivo.
Según el enlace de transmisión, existen modos de conexión directa y transmisión proxy.
Entre ellos, la transmisión de proxy no solo puede resolver el problema de la transmisión de datos de monitoreo entre redes, sino también aliviar el cuello de botella en la transmisión de datos causado por el número excesivo de nodos de monitoreo y utilizar proxy para realizar la descarga de datos. .
5. Almacenamiento de datos
Para los sistemas de monitoreo, hay tres tipos principales de almacenamiento para elegir.
①Base de datos relacional
Como MySQL, MSSQL, DB2; Representantes típicos de sistemas de monitoreo: Zabix, SCOM, Tivoli;;
Porque debido a las limitaciones del La base de datos en sí es difícil de manejar en escenarios de monitoreo masivo y tiene cuellos de botella en el rendimiento. Solo se usa comúnmente en sistemas de monitoreo tradicionales.
②Base de datos de series temporales
Las bases de datos diseñadas para monitorear este escenario son buenas para almacenar y calcular datos de índice. Por ejemplo, InfluxDB, OpenTSDB (basado en Hbase), Prometheus, etc. Representantes típicos del sistema de monitoreo: marco de monitoreo TICK, Open-halcon, Prometheus.
③Base de datos de búsqueda de texto completo
Este tipo de base de datos se utiliza principalmente para el almacenamiento de registros y es muy amigable para la recuperación de datos, como Elasticsearch.
En segundo lugar, detección de datos
1. Procesamiento de datos
①Limpieza de datos
Limpieza de datos, como la limpieza de datos de registro, porque registra datos. No está estructurado y tiene baja densidad de información, por lo que es necesario extraer datos útiles.
②Cálculo de datos
Muchos datos de rendimiento sin procesar no se pueden utilizar directamente para determinar si los datos son anormales. Por ejemplo, los datos recopilados son el volumen total del disco y el uso del disco. Si desea detectar el uso del disco, debe realizar cuatro operaciones simples en el indicador existente para obtener el uso del disco.
③Datos enriquecidos.
El enriquecimiento de datos consiste en colocar algunas etiquetas en los datos, como marcar hosts y salas de computadoras, para facilitar los cálculos de agregación.
④Derivación de indicadores
La derivación de indicadores se refiere al cálculo de nuevos indicadores a través de indicadores existentes.
2. Algoritmo de detección
Existen reglas fijas y algoritmos de aprendizaje automático. Los algoritmos fijos son algoritmos de uso común, como umbrales estáticos, comparaciones anuales, reglas personalizadas, etc., mientras que el aprendizaje automático incluye principalmente líneas de base dinámicas, detección de fallas, predicción de indicadores, detección de correlación de índices múltiples, etc.
Ya sean reglas fijas o aprendizaje automático, habrá reglas de juicio correspondientes, que son puntos en común
3. Gestión de alarmas
1. p>
p>
Las alarmas son ricas y, para prepararse para el análisis posterior de eventos de alarma, se necesita información auxiliar para determinar cómo manejarlas, analizarlas y notificarlas.
En términos generales, el enriquecimiento de alarmas consiste en vincular CMDB, base de conocimientos, historial laboral y otras fuentes de datos a través de reglas para enriquecer los campos de alarma y la información relacionada. El etiquetado manual también es un método rico, pero debido a los altos costos de mano de obra, es difícil de implementar en escenarios reales.
2. Agregación de alarmas
Hay tres enfoques para la agregación de alarmas: supresión, blindaje y agregación.
①Supresión
Suprime el mismo problema para evitar alarmas repetidas. Los esquemas de supresión comunes incluyen supresión anti-vibración, supresión de dependencia, supresión de tiempo, supresión de condiciones combinadas, supresión de alta disponibilidad, etc.
②Shield
Protege situaciones predecibles, como cambios en los ciclos de mantenimiento y tareas periódicas fijas. Estas son cosas que ya se sabe que sucederán y que ya se esperan.
③Agregación
La agregación consiste en combinar alarmas similares o idénticas, porque se puede informar del mismo fenómeno. Por ejemplo, si aumenta el número de visitas comerciales, el rendimiento de la CPU, la memoria, el disco IO y la red IO del host que aloja la empresa aumentará considerablemente. De esta manera, estos indicadores de rendimiento se pueden agregar para facilitar el análisis de alarmas. tratamiento.
3. Notificación de alerta
(1) Notificar a las personas
Se puede contactar a las personas a través de algunos canales de notificación habituales.
De esta manera, cuando nadie esté mirando la pantalla, se puede avisar al personal a través de WeChat, SMS y correo electrónico.
②Sistema de notificaciones.
Generalmente se envía a sistemas de terceros a través de API para facilitar el procesamiento posterior de eventos.
Además, debe admitir la expansión de canales personalizados (por ejemplo, una empresa tiene su propio sistema de mensajería instantánea al que puede acceder ella misma).
Cuarto, gestión de fallas
Los eventos de alarma deben manejarse en un circuito cerrado; de lo contrario, el monitoreo no tiene sentido.
El más común es el procesamiento manual: turnos, órdenes de trabajo, escalamiento de fallas, etc.
La acumulación de experiencia puede acumular fallas manuales en la base de conocimientos como referencia en el manejo de fallas posteriores.
El procesamiento automático realiza la autocuración de fallas en escenarios específicos al extraer el proceso de procesamiento de solidificación de algunas alarmas específicas, por ejemplo, borrando algunos registros inútiles cuando ocurren alarmas de espacio en disco.
El análisis inteligente mejora principalmente la eficiencia de la localización y el procesamiento de fallas mediante el análisis de correlación de fallas, el posicionamiento, la predicción y otros algoritmos de IA.
1. Gestión de vistas
La gestión de vistas también es una función de valor agregado, principalmente para satisfacer las necesidades psicológicas de las personas, por lo que existen muchos roles (líderes, administradores, asistentes, etc.)
Pantalla grande: Enfréntate a los líderes y ofrece una visión global.
Topología: proporciona correlación de alarmas y vistas de superficies de impacto para el personal de operación y mantenimiento.
Dashboard: Para el personal de operaciones y mantenimiento, brinda una vista personalizada de los indicadores de atención.
Informes: proporciona información de informes resumidos estadísticos para el personal y los líderes de operación y mantenimiento, como informes semanales, informes diarios, etc.
Recuperación: Para personal de operación y mantenimiento, se utiliza para recuperar diversos datos en escenarios de análisis de fallas.
2. Gestión del seguimiento
La gestión del seguimiento es el mayor desafío en el proceso de seguimiento empresarial. Los primeros cinco módulos son todas funciones de servicio proporcionadas por el sistema de monitoreo, mientras que la gestión de monitoreo administra y controla el sistema de monitoreo en sí, enfocándose en la presentación funcional del proceso de implementación real. Los aspectos principales son los siguientes:
Configuración: simple, por lotes y automática
Cobertura: una medida del nivel de seguimiento
Base de datos de indicadores: especificaciones de los indicadores de seguimiento
Móvil: solucione problemas en cualquier momento y lugar.
Permisos: Control de Acceso
Auditoría: Cumplimiento de Gestión
API: La mayor fuente de datos de operación y mantenimiento para el consumo de datos.
Automonitoreo: garantía de autoestabilidad
Para implementar los seis módulos básicos de capacidad de monitoreo anteriores, podemos diseñar nuestra plataforma de monitoreo unificada de acuerdo con la siguiente arquitectura.
Se divide principalmente en tres capas: capa de acceso, capa de capacidad y capa de función.
La capa de acceso considera principalmente el acceso de varios tipos de datos. Además de la adquisición y el acceso de sus propios agentes y complementos, también necesita admitir el acceso a datos de fuentes de monitoreo de terceros para construir una plataforma de monitoreo unificada completa.
La capa de capacidad considera principalmente las capacidades generales básicas de monitoreo, incluido el módulo de recopilación de datos, el módulo de almacenamiento de datos, el módulo de procesamiento de datos, el módulo de detección de datos y el módulo de análisis de IA.
La capa funcional debe estar cerca de los escenarios de uso del usuario, incluyendo principalmente funciones de administración y visualización. Los escenarios funcionales se pueden enriquecer continuamente durante el proceso de construcción.
Además, teniendo en cuenta la correlación de los datos, sentar las bases para futuros análisis de datos. El monitoreo y CMDB también deben estar estrechamente vinculados, y todos los objetos monitoreados deben ser administrados por CMDB. Además, el monitoreo de la unidad también se puede configurar como un concepto guía para lograr un monitoreo automático en línea y fuera de línea, identificar automáticamente a la persona a cargo a través de notificaciones de alarma y simplificar el mantenimiento y la gestión del monitoreo.
Para unificar la plataforma de seguimiento en la empresa, necesitamos equiparla con un sistema de gestión correspondiente, el más importante de los cuales es el sistema de gestión de indicadores.
La idea central del sistema de gestión de indicadores:
El sistema de indicadores de seguimiento utiliza CMDB como esqueleto y los indicadores de seguimiento como meridianos, integrando orgánicamente los datos de todo el seguimiento unificado. plataforma.
A través de la gestión del ciclo de vida de los indicadores, complementada con especificaciones de gestión de indicadores, se garantiza el funcionamiento ordenado a largo plazo de la plataforma de seguimiento.
Desde la perspectiva de las aplicaciones empresariales, los objetos de monitoreo empresarial generalmente se dividen en seis capas, que también se pueden ajustar de acuerdo con las propias condiciones de la empresa:
Capa de infraestructura p>
Capa de dispositivo de hardware
Capa de sistema operativo
Capa de servicio de componentes
Capa de rendimiento de aplicaciones
Capa de operación empresarial p>