Академия Яндекса116 тыс
Опубликовано 10 июля 2024, 7:42
SRE Week 2024 l Лекция 5: Практика работы SRE. Чем приходится заниматься руками: SLO, capacity planning, алерты, дежурства, incident management, postmortem actions
Спикер: Руслан Савченко, руководитель службы разработки динамических таблиц YTsaurus.
На лекции вы узнаете о практике работы SRE: SLO, capacity planning, алерты, дежурства и не только.
Скачать презентацию по лекции: disk.yandex.ru/d/Okt96OsfUZ3pk...
Дополнительные материалы (статьи), о которых говорится в лекции:
Ссылки:
1. J. Petoff et al. Site Reliability Engineering: How Google Runs Production Systems. O'Relly Media Inc. 2016. oreilly.com/library/view/site-...
2. B. Beyer et al. The Site Reliability Workbook. O'Relly Media Inc. 2018. oreilly.com/library/view/the-s...
3. Global Continuous Delivery with Spinnaker. Netflix Technology Blog. 2015. netflixtechblog.com/global-con...
4. L. Quesada Torres and D. Colish. SRE Best Practices for Capacity Management. login Usenix Mag, 2020. research.google/pubs/sre-best-...
5. J. Ousterhout. 2018. Always measure one level deeper. Commun. ACM 2018. doi.org/10.1145/3213770
6. Sloth Prometheus SLO generator sloth.dev
Другие лекции интенсива SRE Week:
Лекция 1: Введение. Как ломаются большие системы. Разбираем статистику поломок сервисов: youtube.com/live/TBr01y66bvo?f...
Лекция 2: Характеристики аппаратного обеспечения: CPU, память, диски и сеть: youtube.com/live/KHnsyuEqERY?f...
Лекция 3: Обзор утилит диагностики в командной строке Linux: youtube.com/live/AqDnLf6xf0c?f...
Лекция 4: Распределённые системы и observability. Инфраструктурные компоненты и средства диагностики распределённых систем: youtube.com/live/4036v1ydDPY?f...
Семинар 6.1: Настройка параметров ядра Linux: youtube.com/live/I_mVU41I-YE?f...
Семинар 6.2: Performance troubleshooting на практике: youtube.com/live/d0SZtSF5m4U?f...
Узнать больше о Школе анализа данных можно на сайте: shad.yandex.ru
Спикер: Руслан Савченко, руководитель службы разработки динамических таблиц YTsaurus.
На лекции вы узнаете о практике работы SRE: SLO, capacity planning, алерты, дежурства и не только.
Скачать презентацию по лекции: disk.yandex.ru/d/Okt96OsfUZ3pk...
Дополнительные материалы (статьи), о которых говорится в лекции:
Ссылки:
1. J. Petoff et al. Site Reliability Engineering: How Google Runs Production Systems. O'Relly Media Inc. 2016. oreilly.com/library/view/site-...
2. B. Beyer et al. The Site Reliability Workbook. O'Relly Media Inc. 2018. oreilly.com/library/view/the-s...
3. Global Continuous Delivery with Spinnaker. Netflix Technology Blog. 2015. netflixtechblog.com/global-con...
4. L. Quesada Torres and D. Colish. SRE Best Practices for Capacity Management. login Usenix Mag, 2020. research.google/pubs/sre-best-...
5. J. Ousterhout. 2018. Always measure one level deeper. Commun. ACM 2018. doi.org/10.1145/3213770
6. Sloth Prometheus SLO generator sloth.dev
Другие лекции интенсива SRE Week:
Лекция 1: Введение. Как ломаются большие системы. Разбираем статистику поломок сервисов: youtube.com/live/TBr01y66bvo?f...
Лекция 2: Характеристики аппаратного обеспечения: CPU, память, диски и сеть: youtube.com/live/KHnsyuEqERY?f...
Лекция 3: Обзор утилит диагностики в командной строке Linux: youtube.com/live/AqDnLf6xf0c?f...
Лекция 4: Распределённые системы и observability. Инфраструктурные компоненты и средства диагностики распределённых систем: youtube.com/live/4036v1ydDPY?f...
Семинар 6.1: Настройка параметров ядра Linux: youtube.com/live/I_mVU41I-YE?f...
Семинар 6.2: Performance troubleshooting на практике: youtube.com/live/d0SZtSF5m4U?f...
Узнать больше о Школе анализа данных можно на сайте: shad.yandex.ru
Свежие видео
Случайные видео