Advertisement
Guest User

Untitled

a guest
Apr 21st, 2019
87
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 4.79 KB | None | 0 0
  1. # Summary
  2.  
  3. *Опиши в 3-4 предложениях что происходило и почему. Это информативное представление о факапе с высоты птичьего полета, оно должно быть понятно любому человеку без контекста.*
  4.  
  5. # Ущерб
  6.  
  7. **Качественная оценка**
  8. *Какая функциональность не работала, насколько долго, у кого. Была ли потеря или порча данных. Выбери поле справа.*
  9.  
  10. **Количественная оценка**
  11. *По метрикам приложения и приложений-клиентов (сколько запросов отпало, насколько выросла latency).*
  12. *По обращениям пользователей (сколько звонков потеряно, размер очереди по проблеме).*
  13.  
  14. # Графики
  15.  
  16. *Ссылки на снэпшоты графиков из графаны: системные метрики машин, дашборды пострадавших сервисов. Подпиши, куда какая ссылка ведет. Что такое снэпшот и как его сделать почитай [в вики](#)).*
  17.  
  18. # Как заметили
  19.  
  20. *Как узнали о проблеме. По каким алертам, что написали в саппорт, etc. Выбери поле справа.*
  21.  
  22. # Триггер
  23.  
  24. *Развернуто опиши, что послужило триггером факапа: релиз (какой, когда), повышение нагрузки (от какого сервиса, пользовательского сценария), проблема с железом (где находится, за что отвечает). Выбери поле в описании справа.*
  25.  
  26. # Причины
  27.  
  28. *Подробно опиши и проанализируй причины произошедшего. Опиши механизм падения. Причинно-следственные связи должны быть понятны человеку без контекста.*
  29.  
  30. *Не нужно писать от первого лица, оправдываться или винить своих коллег. Если в причинах фигурирует человеческий фактор, нужно докопаться, какой именно информации не хватило: осведомленности о процессах в команде, о механике работы системы, логике интеграции.*
  31.  
  32. # Что предприняли
  33.  
  34. *Что сделали непосредственно для решения проблемы и почему. "Откатили релиз", "дважды перезагрузили машины", "сидели и наблюдали, рассосалось само", etc.*
  35.  
  36. # Хронология
  37.  
  38. *Опиши все значимые моменты в происшествии: когда внесли ломающее изменение, когда выстрелили алерты, шаги по тушению пожара, etc. Все метки времени укажи с датой и часовым поясом.*
  39.  
  40. # Выводы
  41.  
  42. **Что пошло как надо**
  43. *Какие механизмы помогли в обнаружении, предотвращении и тушении факапа.*
  44.  
  45. **Что пошло не так**
  46. *Какой автоматики не хватило, чтобы факапа не произошло. Можно ли предотвратить подобное в будущем. Что уменьшило бы время реакции, длительность факапа, ущерб.*
  47.  
  48. **Где повезло**
  49. *Моменты, которые по случайности предотвратили больший ущерб. Случайно посмотрели на метрики сервиса, заметили подозрительную строчку в логах, раскапывая другую проблему, нужный человек оказался у компьютера в нерабочее время.*
  50.  
  51. # Задачи
  52.  
  53. *Ссылки на задачи в трекере, которые помогут уменьшить ущерб, ускорить реакцию, убрать случайности, избежать подобного факапа в будущем. Не ставь абстрактные или невыполнимые задачи ("писать код лучше", "исправить все баги в коде"). Этот постмортем должен зависеть от задач через отношение depends on.*
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement