Лекция: Распределённые системы и observability I SRE Week I ШАД

2 034
8.9
Опубликовано 10 июля 2024, 7:40
SRE Week 2024 l Лекция 4: Распределённые системы и observability. Инфраструктурные компоненты и средства диагностики распределённых систем

Спикер: Руслан Савченко, руководитель службы разработки динамических таблиц YTsaurus.
На лекции вы узнаете об инфраструктурных компонентах и средствах диагностики распределённых систем.

Скачать презентацию по лекции: disk.yandex.ru/d/xEVqraTDN7mJx...
Дополнительные материалы (статьи), о которых говорилось в лекции:
1. Alex Xu. System Design Interview – An insider's guide. Independently published, 2020. ozon.ru/product/system-design-...
2. J. Moore. Stop Rate Limiting! Capacity Management Done Right. youtube.com/watch?v=m64SWl9bfv...
3. J. Petoff, N. Murphy, B. Beyer, C. Jones. Site Reliability Engineering: How Google Runs Production Systems. O'Relly Media Inc. 2016. oreilly.com/library/view/site-...
4. B. Beyer, N. R. Murphy, D.K. Rensin, K. Kawahara, S. Thorne. The Site Reliability Workbook. O'Relly Media Inc. 2018. oreilly.com/library/view/the-s...
5. H. Zhou et. 2018. Overload Control for Scaling WeChat Microservices. SoCC '18. doi.org/10.1145/3267809.326782...
6. D. Rensin and A. Hilton. Using load shedding to survive a success disaster—CRE life lessons. Google Cloud Blog. 2016. cloud.google.com/blog/products...
7. Google Cloud’s Operations. Google Cloud Error Reporting. cloud.google.com/error-reporti...
8. B.H. Sigelman et al. Dapper, a Large-Scale Distributed Systems Tracing Infrastructure. Google, Inc. 2010. research.google/pubs/dapper-a-...
9. P. Vijayanathan. How Netflix Builds High Performance Applications at Global Scale. P99 Conf. 2023. p99conf.io/session/how-netflix...

Другие лекции интенсива SRE Week:
Лекция 1: Введение. Как ломаются большие системы. Разбираем статистику поломок сервисов: youtube.com/live/TBr01y66bvo?f...
Лекция 2: Характеристики аппаратного обеспечения: CPU, память, диски и сеть: youtube.com/live/KHnsyuEqERY?f...
Лекция 3: Обзор утилит диагностики в командной строке Linux: youtube.com/live/AqDnLf6xf0c?f...
Лекция 5: Практика работы SRE. Чем приходится заниматься руками: SLO, capacity planning, алерты, дежурства, incident management, postmortem actions: youtube.com/live/758wXAx-bv8?f...
Семинар 6.1: Настройка параметров ядра Linux: youtube.com/live/I_mVU41I-YE?f...
Семинар 6.2: Performance troubleshooting на практике: youtube.com/live/d0SZtSF5m4U?f...

Узнать больше о Школе анализа данных можно на сайте: shad.yandex.ru
жизньигрыфильмывесельеавтотехномузыкаспортедаденьгистройкаохотаогородзнанияздоровьекреативдетское