Salir de la pildora

Gestión de incidentes

En esta píldora te presentaremos la práctica de Gestión de incidentes de ITIL 4

¡Esperamos que te sea de gran ayuda!

(Desliza para continuar)

Descripción de la práctica

El propósito de la práctica es minimizar el impacto negativo de los incidentes restaurando el funcionamiento normal del servicio lo más rápido posible.

La operación normal del servicio generalmente se define dentro de los SLAs u otras especificaciones acordadas con el proveedor de servicio.

Conceptos básicos

• Incidente: es una interrupción no planeada de un servicio o la reducción en la calidad de un servicio.

• Modelo de incidentes: es un enfoque repetible para el manejo de un tipo particular de incidente.

• Incidentes mayores: es un incidente con impacto significativo en el negocio que requiere una resolución coordinada inmediata.

• Solución alternativa: es una solución que reduce o elimina el impacto de un incidente o problema para el cual la solución completa no está disponible aún. Algunas soluciones alternativas reducen la probabilidad de incidentes.

• Deuda técnica: es la acumulación total de reprocesos ocasionados por la selección de soluciones alternativas en lugar de soluciones de sistema que tomarían más tiempo.

Alcance

La práctica incluye:

• Detección y registro de incidentes.

• Diagnóstico e investigación de incidentes.

• Restauración de los servicios y los elementos de configuración afectados a la calidad acordada.

• Gestión de registros de incidentes.

• Comunicación con las partes interesadas relevantes a través del ciclo de vida del incidente.

• Revisión de incidentes e inicio de mejoras a los servicios y a la práctica de gestión de incidentes luego de la resolución.

Factores de éxito de la práctica

Detección temprana de incidentes

La buena práctica sugiere que los incidentes sean detectados y registrados de manera automática, esto se puede hacer apenas ocurre en incidente y antes de que comience a afectar a los usuarios, esto permite identificar oportunamente los incidentes e incluso identificar algunos que se encuentran invisibles para los usuarios, lo que se refleja en una disminución de los costos.

La detección de incidentes es facilitada por la práctica de monitoreo y gestión de eventos, esta incluye herramientas y procesos para la categorización de eventos que distingue incidentes de eventos de información y alertas.

En caso de que la detección no se pueda hacer automatizada, los incidentes se detectan por lo general cuando ya han tenido impacto sobre los usuarios, es importante promover una cultura de consumo responsable del servicio entre los usuarios que los anime a reportar eventos o comportamientos sospechosos.

Resolver incidentes de manera rápida y eficiente.

Este factor es vital para el éxito de la práctica y en general para la calidad del servicio. Después de haber detectado el incidente, es necesario manejarlos de manera eficaz y eficiente, considerando la complejidad de su ambiente:

• En situaciones simples, como incidentes recurrentes, un procedimiento predefinido puede ser eficaz.

• En situaciones complejas, es decir que se desconoce su naturaleza pero sus componentes son conocidos por el equipo de soporte, los incidentes se pueden escalar a un equipo especializado quien se encarga de diagnosticarlo y resolverlo. Esto podría ayudar a identificar patrones o conducir a un modelo cuya solución se pueda aplicar a incidentes similares en el futuro.

• En situaciones muy complejas, se pueden usar técnicas que involucren personas de diferentes áreas y experiencia como "Swarming".

Detro de la resolución de incidentes la priorización de incidentes juega un papel fundamental pues los recursos son limitados y estos equipos suelen resolver incidentes además de estar involucrado en otro tipo de trabajos.

La priorización debe considerar aspectos como el impacto y la urgencia del incidente, los recursos disponibles para la resolución de incidentes, se pueden considerar herramientas de visualización para limitar el trabajo en proceso

Mejora continua del enfoque de la gestión de incidentes

Las revisiones periódicas permiten identificar oportunidades de mejora, especialmente cuando se presentan incidentes mayores, nuevos tipos de incidentes e incidentes que no son resueltos a tiempo. Estas revisiones permiten también conocer la satisfacción de las partes interesadas.

Métricas clave

Algunas métricas son:

• Adopción de un enfoque común para la gestión de relaciones como parte de la cultura organizacional.

• Satisfacción de las partes interesadas clave con el enfoque de la organización para la gestión de relaciones.

• Número y percentaje de relaciones rotas porque el enfoque acordado no fue adoptado y seguido.

La eficacia y el rendimiento de las prácticas deben evaluarse en el contexto de los flujos de valor a los que contribuye la práctica. Algunas métricas son:

• Tiempo entre la ocurrencia y la detección del incidente.

• Porcentaje de incidentes detectados via monitoreo y gestión de eventos.

• Tiempo entre la detección del incidente y la aceptación para diagnóstico.

• Tiempo de diagnóstico.

• Número de reasignaciones.

• Porcentaje de tiempos de espera en el tiempo total del manejo de incidentes.

• Tasa de resolución por primera vez.

• Cumplimiento del tiempo de resolución acordado.

• Satisfacción del usuario con el manejo y resolución de incidentes.

• Porcentaje de incidentes resueltos de manera automática.

• Porcentaje de incidentes resueltos antes de ser reportados por los usuarios.

• Porcentaje de resolución de incidentes utilizando soluciones previamente identificadas y registradas.

• Porcentaje de incidentes resueltos usando modelos de incidentes.

• Equilibrio entre métricas de velocidad y efectividad para la resolución de incidentes

Aporte a la Cadena de Valor del Servicio (SVC)

La práctica contribuye a múltiples flujos de valor, los cuales a su vez están formados por múltiples prácticas. Las principales actividades de la Cadena de Valor del Servicio a las que contribuye la práctica son:

• Compromiso

• Entrega y soporte

• Diseño y transición

• Mejora

• Obtener y construir

Procesos

Manejo y resolución de incidentes

Este proceso se enfoca en el manejo y resolución de incidentes, desde su detección hasta su cierre. Dentro de las actividades que contempla están la detección, registro, clasificación, diagnóstico, resolución y cierre de los incidentes.

Revisión periódica de incidentes

Este proceso se enfoca en la mejora continua de la práctica, los modelos de incidentes y los procedimientos de manejo de incidentes. Las revisiones se pueden dar de manera periodica o cada vez que se presente una ineficiencia o una oportunidad de mejora. Dentro de las actividades que contempla el proceso se encuentra la revisión de incidentes y el análisis de registros de incidentes, iniciación y comunicación de las mejoras al modelo de incidentes.

Roles, compentencias y responsabilidades

Gerente de incidentes

El rol puede ser desempeñado por una persona dedicada exlusivamente a esto o por una persona o equipo responsable de elementos de configuración, servicios o productos con incidentes asociados. Dentro de sus responsabilidades se encuentran:

• La coordinación del manejo de incidentes.

• Coordinar el trabajo de los equipos.

• Monitorear y revisar el trabajo de los equipos que manejan y resuleven incidentes.

• Asegurar la suficiente conciencia sobre los incidentes en toda la organización.

• Realizar las revisiones de los incidentes regulares e iniciar mejoras a la práctica, los modelos y los procedimientos.

• Desarrollar la experiencia de la organización en los procesos y métodos de la práctica.

Intercambio de información

La información utilizada por la práctica, incluye pero no se limita a:

• Clientes y usuarios.

• Arquitectura y diseño del servicio.

• Socios y proveedores, incluídos contratos y SLAs.

• Políticas y requerimientos que regulan la provisión del servicio.

• Satisfacción de las partes interesadas con la práctica.

Los detalles sobre los incidentes son la información más importante, por lo general incluye:

• Fuentes de información

• Referencia del producto, servicio o elemento de configuración que está fallando o presentando bajos estándares.

• Los usuarios o servicios impactados.

• Los síntomas del bajo desempeño

• Cuando los síntomas fueron observados

• La útlima vez que la operación era correcta

• Si se realizó una resolución automática o no.

• La ubicación tanto geográfico como virtual

• La naturaleza y el grado del impacto en las operaciones normales

• La secuencia de eventos que conducen a la observación del síntoma.

Con esto terminamos de abordar algunos de los aspectos más relevantes de la práctica Gestión de incidentes.

¡Esperamos que te sean de gran utilidad!

Te invitamos a que revises las píldoras sobre las demás prácticas