Дж. Денсмор | Конвейеры данных. Карманный справочник [2 книги] (2021, 2024) [PDF] -Автор: Дж. Денсмор Издательство: O’Reilly; АЛИСТ ISBN: 9781492087830, 9786010925618 Жанр: Программирование Язык: Русский, английский Формат: PDF Качество: Изначально электронное (ebook), Обработанный скан Иллюстрации: Цветные и черно-белые Описание: Книга посвящена передовым методам построения конвейеров данных, сбору данных из множества разнообразных источников и преобразованию их для аналитики. Дано введение в конвейеры данных, раскрыта их работа в современном стеке данных. Описаны стандартные шаблоны конвейеров данных. Показан процесс сбора данных от их извлечения до загрузки в хранилище. Затронуты вопросы преобразования и проверки данных, оркестровки конвейеров, методов их обслуживания и мониторинга производительности. Примеры программ написаны на Python и SQL и задействуют множество библиотек с открытым исходным кодом.
"Дополнительная информация:"
Предисловие Для кого эта книга Условные обозначения, используемые в этой книге Скачивание примеров кода Благодарности Глава 1. Введение в конвейеры данных Что такое конвейеры данных? Кто строит конвейеры данных? Основы SQL и хранилища данных Python и/или Java Распределенные вычисления Основы системного администрирования Понимание общих целей Зачем создавать конвейеры данных? Как строятся конвейеры? Глава 2. Современная инфраструктура данных Разнообразие источников данных Принадлежность исходной системы Интерфейс сбора и структура данных Объем данных Чистота и достоверность данных Задержка и пропускная способность исходной системы Облачные хранилища данных и озера данных Инструменты сбора данных Инструменты преобразования и моделирования данных Платформы для оркестровки рабочих процессов Направленные ациклические графы (DAG) Настройка вашей инфраструктуры данных Глава 3. Стандартные шаблоны конвейеров данных Шаблоны ETL и ELT Преимущество ELT перед ETL Подшаблон EtLT ELT в анализе данных ELT в науке о данных ELT для информационных продуктов и машинного обучения Этапы конвейера для машинного обучения Включение обратной связи в конвейер Дополнительная литература по конвейерам машинного обучения Глава 4. Сбор данных: начнем с извлечения Настройка среды Python Настройка облачного хранилища файлов Извлечение данных из БД MySQL Полное или инкрементное извлечение таблицы MySQL Репликация двоичного журнала данных MySQL Извлечение данных из БД PostgreSQL Полное или инкрементное извлечение таблицы Postgres Репликация данных с использованием журнала упреждающих записей Извлечение данных из MongoDB Извлечение данных из REST API Сбор потоковых данных с помощью Kafka и Debezium Глава 5. Сбор данных: загрузка в хранилище Настройка хранилища Amazon Redshift в качестве места назначения Загрузка данных в хранилище Redshift Инкрементные и полные загрузки Загрузка данных, извлеченных из журнала CDC Настройка хранилища Snowflake в качестве пункта назначения Загрузка данных в хранилище Snowflake Использование вашего файлового хранилища в качестве озера данных Фреймворки с открытым исходным кодом Коммерческие альтернативы Глава 6. Преобразование данных Неконтекстные преобразования Удаление дубликатов записей в таблице Парсинг URL-адресов Когда лучше выполнять преобразование? Основы моделирования данных Ключевые термины моделирования данных Моделирование полностью обновляемых данных Медленно меняющиеся измерения для полностью обновленных данных Моделирование инкрементно собираемых данных Моделирование данных только для добавления Моделирование данных об изменениях Глава 7. Оркестровка конвейеров Направленные ациклические графы Настройка и знакомство с Apache Airflow Установка и настройка База данных Airflow Веб-сервер и пользовательский интерфейс Планировщик Исполнители Операторы Создание DAG Airflow Простой DAG Конвейер ELT и DAG Дополнительные задачи конвейера Оповещения и уведомления Проверка данных Расширенные конфигурации оркестровки Связанные и несвязанные задачи конвейера Когда следует разделять DAG Координация нескольких DAG с сенсорами Управляемые варианты развертывания Airflow Другие фреймворки для оркестровки Глава 8. Проверка данных в конвейерах Проверяйте раньше, проверяйте чаще Качество данных исходной системы Риски процесса сбора данных Проверка данных с участием аналитиков Простой фреймворк проверки данных Простой фреймворк проверки данных Структура проверочного теста Запуск проверочного теста Использование фреймворка в DAG Airflow Когда нужно остановить конвейер, а когда предупредить и продолжить Дополнения к фреймворку Примеры проверок Дубликаты записей после сбора данных Неожиданное изменение числа строк после сбора данных Колебания значения показателя Коммерческие и открытые фреймворки проверки данных Глава 9. Передовые методы обслуживания конвейеров Как реагировать на изменения в исходных системах Добавление абстракции Поддержка контрактов данных Ограничения схемы при чтении Масштабирование сложности конвейеров Стандартизация сбора данных Повторное использование логики модели данных Обеспечение целостности зависимостей Глава 10. Измерение и мониторинг производительности конвейера Ключевые показатели конвейера Подготовка хранилища данных Структура данных Журналирование и получение данных о производительности Получение истории выполнения DAG из Airflow Добавление журналирования в инструмент проверки данных Преобразование данных о производительности Коэффициент успешного выполнения DAG Отслеживание времени выполнения DAG Объем выполненных тестов и доля успешных результатов Оркестровка конвейера производительности DAG конвейера производительности Раскрытие информации о производительности Предметный указатель Об авторе Об изображении на обложке Джеймс Денсмор. Конвейеры данных. Карманный справочник. Сбор и обработка данных для аналитики. В оригинале: Densmore James. Data Pipelines Pocket Reference: Moving and Processing Data for Analytics Data pipelines are the foundation for success in data analytics. Moving data from numerous diverse sources and transforming it to provide context is the difference between having data and actually gaining value from it. This pocket reference defines data pipelines and explains how they work in today's modern data stack. You'll learn common considerations and key decision points when implementing pipelines, such as batch versus streaming data ingestion and build versus buy. This book addresses the most common decisions made by data professionals and discusses foundational concepts that apply to open source frameworks, commercial products, and homegrown solutions. You'll learn: What a data pipeline is and how it works How data is moved and processed on modern data infrastructure, including cloud platforms Common tools and products used by data engineers to build pipelines How pipelines support analytics and reporting needs Considerations for pipeline maintenance, testing, and alerting
Скачать Дж. Денсмор - Конвейеры данных. Карманный справочник [2 книги] (2021, 2024) слив курса.
Текущее время: Сегодня 14:56
Часовой пояс: GMT + 4
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете голосовать в опросах Вы не можете прикреплять файлы к сообщениям Вы не можете скачивать файлы