В данной работе с помощью Airflow была решена ETL-задача (Extract -> Transform -> Load). Для этого был создан DAG в Airflow, который считает следующие метрики в срезе по полу (gender), возрасту (age), ОС(OS) за вчерашний день:
- Число полученных сообщений - messages_received
- Число отправленных сообщений - messages_sent
- От скольких пользователей получили сообщения - users_received
- Скольким пользователям отправили сообщение - users_sent
Каждый день DAG дополняет таблицу в ClickHouse. Пример созданной таблицы содержится в файле data_clickhouse.csv.