Пост @Editor_cloud_ru — Блог компании Cloud.ru (+4) — N/P

Страницы:  1

Ответить
 

Professor Seleznov


Приходите на вебинар — покажем, как построить потоковый конвейер данных с латентностью в минуты
pic
Батчевый ETL раз в сутки перестает справляться, когда бизнесу нужна аналитика в режиме, близком к реальному времени. Как перейти на потоковую обработку без лишней сложности в инфраструктуре?
Разберем это на вебинаре по Evolution Data Platform. Будет полезно дата-инженерам, которые проектируют конвейеры, аналитикам и BI-специалистам, которым важно работать с актуальными данными, а еще архитекторам и руководителям дата-отделов.
На вебинаре расскажем и покажем:
  • как проектировать архитектуру конвейера под near real-time: когда брать микробатчинг в Managed Spark Streaming, а когда хватит классического батча;
  • зачем нужен Managed Trino как единый слой запросов поверх «горячих» и «холодных» данных — и как это убирает дублирование логики;
  • как партиционировать данные по времени в Object Storage, чтобы запросы не тормозили;
  • как управлять схемой через Managed Metastore, когда структура потока меняется;
  • как настроить дашборд в Managed BI с автообновлением и алертами на отклонения;
  • как измерять латентность конвейера — от генерации события до появления на дашборде.
На практической части соберем реальный сценарий: оконная агрегация транзакций в Managed Spark Streaming, оркестрация через Managed Airflow, витрина в Object Storage, ad-hoc запросы через Managed Trino без копирования данных, дашборд с обновлением раз в две минуты.
📅 Когда? 21 мая в 11:00 мск.
📍 Где? Онлайн. Зарегистрируйтесь, чтобы задать вопросы спикеру в прямом эфире.
P.S. А еще мы тут подготовили чек-лист, как создать качественное хранилище данных за 15 шагов — забирайте, нам не жалко. -Источник
 
Loading...
Error