Solución de operación y mantenimiento de TI
El sistema de operación y mantenimiento es la garantía básica para estandarizar la gestión de operación y mantenimiento, y es también la base para el establecimiento de procesos. El personal relevante de la organización de operación y mantenimiento utiliza plataformas avanzadas de gestión de operación y mantenimiento para llevar a cabo operaciones técnicas y de gestión de operación estandarizadas en diversos objetos de operación y mantenimiento de acuerdo con los requisitos del sistema y los procesos estandarizados.
La localización de fallos de TI se refiere al diagnóstico de la causa directa o causa raíz del fallo ayuda a que las acciones de recuperación de fallos sean más efectivas. La localización de fallos suele ser la parte que consume más tiempo de todo el proceso de fallo. El objetivo del posicionamiento es recuperarse rápidamente, no encontrar el origen del problema, que es responsabilidad de la gestión del problema. Normalmente, la mayoría de las fallas de disponibilidad se resuelven mediante juicios hipotéticos basados en la experiencia de expertos en operación y mantenimiento o en la implementación de soluciones conocidas, pero algunas fallas, especialmente fallas de rendimiento, lógica de uso y fallas de datos, requieren cooperación de múltiples partes y soporte de herramientas.
En los centros de datos, mucho personal técnico de operación y mantenimiento a menudo tiene la gran capacidad de descubrir fallas conocidas y puede encontrar rápidamente la causa raíz del problema en función de sus propias fallas. Los expertos más experimentados pueden utilizar los principios internos del sistema para adivinar las posibles razones detrás de un fenómeno a partir de algunos fenómenos de falla comunes. Juzgar posibles rutas de diagnóstico en función de los síntomas de falla es una habilidad esencial para un experto técnico en operación y mantenimiento, que a menudo se acumula a través de una gran cantidad de casos de operación y mantenimiento. En esto se diferencian los expertos del personal de operación y mantenimiento ordinario. La recopilación de datos precisa en realidad depende del conocimiento operativo.
Por ejemplo, si queremos hacer un análisis de fallas, necesitamos recursos de CPU, entonces, ¿cómo recopilar datos? ¿Encontrar el umbral promedio o máximo de utilización de la CPU dentro de un cierto período de tiempo? ¿Hay algún problema con la utilización del 100% de la CPU? No es tan simple. De hecho, los picos repentinos de CPU son en su mayoría inofensivos y es posible que no tengan un impacto negativo en nuestro sistema. Solo cuando la utilización de la CPU a largo plazo se acerca a un nivel alto, la CPU puede tener un cuello de botella por recursos insuficientes, lo que afecta el rendimiento del sistema.
1. Principios de operación y mantenimiento
Los sistemas de TI inevitablemente tendrán problemas o fallas durante su operación. Los principios de resolución de problemas se pueden resumir en dos principios:
Todas las medidas o métodos dan prioridad a la rápida recuperación del negocio.
Los errores o las coincidencias deben actualizarse y optimizarse a tiempo.
1.1. Es urgente retomar la actividad.
La prioridad de recuperación empresarial significa que, independientemente del nivel de fallo que se produzca, los servicios deben restaurarse primero. Esto es diferente de la ubicación de la falla. Mucha gente se sentirá confundida y pensará que no se ha encontrado la causa raíz del problema. ¿Cómo retomar el negocio? Aquí hay un ejemplo simple:
Si la depuración de los sistemas A y B finalmente falla, ¿cómo encontrar y resolver el problema?
(1) Haga ping a la red usando B desde el servidor usando a. Si el puerto está conectado a la red, vincule el host del servidor B directamente.
(2) Solucione el problema, descubra qué enlaces pasan entre A y B y descubra los enlaces problemáticos, incluidas las áreas entre servidores y los segmentos entre redes. Si la conexión HA es anormal, reinicie o expanda y recupere.
Normalmente, el primer método lleva poco tiempo. Si hay acceso a la sala de máquinas entre A y B, la verificación del primer método llevará más tiempo. Aunque el equilibrio estructural entre A y B se destruye, puede surtir efecto inmediatamente, que es lo que llamamos recuperación de prioridad empresarial.
1.2. Actualización oportuna
Esto es fácil de entender. Cuando ocurre una falla, cualquiera solo puede hacer una predicción simple del impacto de la falla, por lo que debe comunicarse con su líder a tiempo para que pueda obtener información de primera mano y coordinar los recursos.
4. Paquetes de actualización de seguridad o equipos o sistemas de actualización de grandes fabricantes;
2. Modo de operación y mantenimiento
Basado en los requisitos y operaciones de los trabajos de operación y mantenimiento. y el tiempo de respuesta de mantenimiento, decide construir un plan completo de operación y mantenimiento y determinar los estándares de servicio. La inspección in situ de software y hardware es la principal forma de mejorar la ejecución de los planes de operación y mantenimiento. En términos generales, el flujo de trabajo de operación y mantenimiento de un centro de datos es el siguiente:
(1) Cree un plan completo de operación y mantenimiento: en todo el proceso de operación y mantenimiento, el plan es el núcleo de todo el proceso. flujo de trabajo.
De acuerdo con el principio de planificar primero, formularemos planes de trabajo de subelementos y planes de dimensión temporal basados en el plan de trabajo de este año, y los implementaremos y garantizaremos de acuerdo con los procesos y planes.
(2) La importancia de la inspección in situ: el plan de inspección in situ es el foco del plan de trabajo de operación y mantenimiento. A través de inspecciones in situ se pueden encontrar eslabones débiles, nodos comerciales clave y peligros ocultos del sistema. En particular, es muy importante formular planes de emergencia y planes de repuestos.
(3) La importancia de la ejecución: la implementación del plan de operación y mantenimiento es el foco del trabajo de operación y mantenimiento. Durante la implementación del plan de operación y mantenimiento, la operación y el mantenimiento deben realizarse en estricta conformidad con las especificaciones del proceso y se debe prestar atención al control para reducir los riesgos de operación y mantenimiento. Con respecto a la implementación de la operación y el mantenimiento, se debe brindar retroalimentación periódica a los usuarios.
(4) Estándares de servicio de operación y mantenimiento: Firmar una carta de compromiso de servicio posventa y acordar niveles de servicio con los clientes. El nivel de servicio prometido, incluidos los recursos proporcionados (repuestos, etc.) y las soluciones proporcionadas deben implementarse estrictamente de acuerdo con el acuerdo.
Tres. Métodos de procesamiento de operación y mantenimiento
Primero, ITIL, especialmente ITIL 4, es la última versión del estándar internacional de servicios de TI en la nueva era, y también es una versión completamente nueva para TI sensible. Incluye la funcionalidad de ITIL V3 y agrega soporte para DevOps.
El segundo es la metodología de operación y mantenimiento de TI sensible SRE (Site Reliability Engineering), que es la metodología de servicio de operación y mantenimiento de Internet y la nube pública.
En tercer lugar, la infraestructura como; El código integra los procesos básicos de automatización de instalaciones, operaciones y mantenimiento y las mejores prácticas y casos globales.
En cuarto lugar, fortalecer la conexión entre operaciones y desarrollo e integrar la organización, la cultura y los procesos de gestión de servicios de TI.
Cheng y Devops combinados.
Los servicios de operación y mantenimiento incluyen equipos de red, equipos de seguridad, infraestructura de sala de computadoras, equipos host, sistemas operativos, bases de datos y dispositivos de almacenamiento relacionados con sistemas de información y otros sistemas de información para garantizar el funcionamiento normal de la información existente de los usuarios. operación de los sistemas, reducir los costos generales de gestión y mejorar el nivel general de servicio de los sistemas de información de la red. Al mismo tiempo, basándonos en los datos y registros de mantenimiento diario, proporcionamos planes generales de construcción y sugerencias para los sistemas de información del usuario para brindar una mejor garantía para el desarrollo de la informatización de los usuarios.
La composición de los sistemas de información del usuario se puede dividir principalmente en dos categorías: dispositivos de hardware y sistemas de software. Los dispositivos de hardware incluyen dispositivos de red, dispositivos de seguridad, dispositivos host, dispositivos de almacenamiento, etc. El equipo de software se puede dividir en software de sistema operativo, software de uso típico (como software de base de datos, software de middleware, etc.), software empresarial, etc.
La resolución de problemas generalmente se divide en tres etapas: antes del fallo, durante el fallo y después del fallo. Pre-falla se refiere al análisis de la ubicación de la falla, durante la falla se refiere al proceso de manejo de fallas y después de la falla se refiere al resumen de fallas, lo cual es muy importante.
(1) Desde la perspectiva del servicio de fallas, proponer métodos de operación y mantenimiento para manejar fallas.
Desde la perspectiva de los servicios de fallas, los tres métodos más importantes de operación y mantenimiento para restaurar el negocio son: aislamiento, reinicio y degradación.
(1) Aislamiento
El aislamiento se refiere al proceso de separar un objeto defectuoso del clúster, con el propósito de evitar que el objeto defectuoso proporcione servicios. Los métodos de aislamiento incluyen los dos siguientes, organizados en orden de frecuencia común:
Ajustar el peso aguas arriba a cero. Si hay un mecanismo de autodetección en la arquitectura, también puede detener directamente el servicio del objeto defectuoso, de modo que la detección de estado ascendente sea efectiva.
Los objetos defectuosos se pueden evitar vinculando hosts o configurando rutas. Por ejemplo, el dominio de gestión de enrutamiento inteligente cierra una línea. A lo que hay que prestar atención aquí es a prevenir el efecto avalancha.
(2) Reiniciar
El reinicio incluye el reinicio del servicio y el reinicio del servidor (reinicio del sistema operativo). En caso de falla, se puede reiniciar cualquier enlace involucrado. El orden general de reinicio es: objeto de falla > objeto de falla aguas arriba > objeto de falla aguas abajo Generalmente, cuanto más lejos del objeto de falla, más tardía es la secuencia de reinicio.
(3) Rebajar
Rebajar se refiere a un plan para evitar una falla mayor. En términos generales, la degradación definitivamente no es el estado óptimo para el usuario actual. Incluso si no hay impacto técnico, habrá más o menos algún impacto comercial. Aunque los usuarios pueden responder temporalmente a algunos servicios a través de otros métodos, esto traerá una mala experiencia de usuario y cierto impacto en el usuario.
La degradación no es solo un problema de operación y mantenimiento, sino también un problema de investigación y desarrollo empresarial conjunto o de promoción de la investigación y el desarrollo empresarial.
Por lo tanto, al realizar cualquier proyecto, la primera consideración no es cuánto rendimiento puede lograr el proyecto, sino qué se debe considerar si algo sale mal.
Esto es válido para proyectos, así como para propósitos y componentes principales. Como responsable del uso, debe considerar si existe un plan de uso en caso de que ocurra una falla importante en este objeto, y el ejecutor debe aclarar las condiciones que desencadenan estos planes.
La degradación, desde cierta perspectiva, es el último medio de operación y mantenimiento para salvar vidas, y debe tomarse en serio.
Los métodos de operación anteriores, especialmente el reinicio y el aislamiento, tienen una premisa importante: el objeto debe ser sin estado. Si se requiere desarrollo y reintento, los requisitos deben ser idempotentes. Los objetos sin estado no están permitidos a menos que sean negocios muy especiales y puedan existir temporalmente, por lo que los objetos en producción solo deben tener tres estados:
(2) Ver fallas de operación y mantenimiento desde la perspectiva de la parte afectada Métodos de procesamiento .
En primer lugar, durante el proceso de resolución de problemas, encontrará varias estructuras organizativas internas o externas involucradas en fallas del sistema. Generalmente, se requieren los siguientes tres tipos de personas para manejar fallas al mismo tiempo:
Transmisor de información: su responsabilidad es brindar información efectiva sobre el manejo y la ubicación de fallas y, al mismo tiempo, brindar información sobre el progreso de las fallas. información al mundo exterior;
Localizador de fallas: su responsabilidad es resolver la falla cuando el método del manejador de fallas falla o es necesario encontrar la causa raíz del problema;
Solucionador de problemas: Su responsabilidad es restaurar el negocio lo más rápido posible.
Para los sistemas de operación y mantenimiento de TI, estos tres tipos de personas a menudo no aparecen al mismo tiempo. Por ejemplo, cuando está de servicio temprano en la mañana, solo se necesitan manejadores de fallas para manejar el problema. Una vez restablecido el negocio, el personal de localización de fallos encontrará la causa raíz y las medidas de optimización al día siguiente.
Además, después de que ocurra la falla, las partes afectadas se dividirán en dos categorías:
(1) Usuarios internos
Los usuarios internos incluyen a los usuarios internos que utilice su propia llamada y encuentre problemas con los usuarios internos, de forma similar a los usuarios externos.
(2) Usuarios externos
Será más problemático tratar con usuarios externos. La idea es cómo convertir a los usuarios externos en usuarios internos. Por ejemplo, si un proveedor no puede abrir el sitio web de la empresa, hay dos aspectos que hacer:
Si ninguno de los dos aspectos anteriores funciona, será más problemático. En este momento, debe recopilar cierta información del usuario externo necesaria antes del procesamiento, como la IP de exportación, la versión del cliente utilizada, etc. Aquí se recomienda recopilar información en una plantilla y completarla una vez, porque el tiempo de procesamiento del usuario externo a menudo se gasta en costos de comunicación.
Para obtener más cursos en vídeo relacionados de celebridades famosas, descargue la "Aplicación Jifu Xiaoka" en la App Store de Apple o en varios mercados de Android.
Preguntas y respuestas relacionadas: