На курсе вы будете: Строить Сформулируете показатели SLO, SLI, SLA для сайта, состоящего из нескольких микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит, соберете, протестируете и задеплоите сайт, настроите мониторинг и алертинг. Ломать Рассмотрите внутренние и внешние факторы ухудшения SLO: ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки. Разберетесь в устойчивости, error budget, практике тестирования, управлении прерываниями и операционной нагрузкой. Чинить Организуете работу группы по ликвидации аварии в минимальные сроки: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Имитация реальных условий: восстановление работоспособности сервиса в условиях предельно ограниченного времени. Изучать Разберете подход к сайту с точки зрения SRE. Проанализируете инциденты (причины возникновения, ход устранения). Примете решение по их дальнейшему предотвращению: улучшить мониторинг, изменить архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируете процессы. Требования к участникам: - Свободное владение Linux; - Любой язык программирования: уровень Junior; - GitLab: навыки автоматизации; - Prometheus: навыки мониторинга; - Kubernetes: навыки работы в кластере. Программа обучения Тема №1: Основные принципы и методы SRE Что нужно чтобы стать SRE? DevOps vs SRE Почему разработчики ценят SRE и очень грустят, когда в проекте их нет SLI, SLO и SLA Error budget и его роль в SRE Тема №2: Дизайн распределенных систем Архитектура и функционал приложения Non-Abstract Large System Design Operability / Design for failure gRPC или REST Версионирование и обратная совместимость Тема №3: Как принимают проект SRE Лучшие практики от SRE Чек-лист приема проекта Логирование, метрики, трейсинг Забираем CI/CD в свои руки Тема №4: Проектирование и запуск распределенной системы Обратное проектирование — как работает система? Согласовываем SLI и SLO Практика capacity planning Запуск трафика на приложение, наши пользователи начинают им «пользоваться» Запускаем Prometheus, Grafana, Elastic Тема №5: Monitoring, Observability and Alerting Monitoring vs. Observability Настраиваем мониторинг и алертинг с Prometheus Практический мониторинг SLI и SLO Symptoms vs. Causes Black-Box vs. White-Box Monitoring Распределенный мониторинг доступности приложений и серверов 4 золотых сигнала (обнаружение аномалий) Тема №6: Практика тестирования надежности систем Работа под давлением Failure-injection Chaos Monkey Тема №7: Практика incident response Алгоритм управления стрессом Взаимодействие между участниками инцидента Постмортем Knowledge sharing Формирование культуры Контроль неисправностей Проведение blameless разбора полетов Тема №8: Практика управления нагрузкой Балансировка нагрузки Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker DDoS (создаем нагрузку) + Cascading Failures Тема №9: Реагирование на инциденты Разбор полетов Практика On-Call Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования) Протоколы управления инцидентами Тема №10: Диагностика и решение проблем Журналирование Отладка Практика анализа и отладки на нашем приложении Тема №11: Тестирование надежности систем Нагрузочное тестирование Тестирование конфигураций Тестирование производительности Canary release Тема №12: Самостоятельная работа и ревью Реальные кейсы Проверка спикерами Продажник: https://slurm.io/sre ↓ Скачать: ↓
Скачать Иван Круглов, Павел Селиванов - SRE онлайн-интенсив (2020) слив курса.
Текущее время: Сегодня 21:20
Часовой пояс: GMT + 4
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете голосовать в опросах Вы не можете прикреплять файлы к сообщениям Вы не можете скачивать файлы