everydayminder
MTTD, MTTR: 장애 대응 능력의 현재 지표 모든 서비스들은 장애가 나기 마련이다. 놓친 버그와 같은 내부 요인이나, 인프라 등의 외부 요인 등 원인은 다양하다. 그런데, 장애가 발생했다고 하여 마냥 손놓고 있을 수는 없지 않나? 우리는 장애를 수동적으로 맞이하고 있는지 혹은 적극적으로 대응하고 있는지를 데이터로 알 수 있지 않을까? 우리 팀/ 우리 서비스의 장애 대응 능력은 어느 정도 수준일까? 우리는 장애 대응을 얼마나 잘 하고 있나? 를 알 수 있는 지표를 정리한다. MTTD: 우리는 얼마나 빨리 장애를 인지하고 있나? MTTD(Mean Time To Detect)는 장애를 인지하는데 걸리는 평균시간을 뜻한다. 왜 평균이냐면, 발생한 장애 한 건으로 장애 인지 능력을 평가할 수 없기 때문에 평..