|
Professor Seleznov
|
Приходите на вебинар — покажем, как построить потоковый конвейер данных с латентностью в минуты
 Батчевый ETL раз в сутки перестает справляться, когда бизнесу нужна аналитика в режиме, близком к реальному времени. Как перейти на потоковую обработку без лишней сложности в инфраструктуре? Разберем это на вебинаре по Evolution Data Platform. Будет полезно дата-инженерам, которые проектируют конвейеры, аналитикам и BI-специалистам, которым важно работать с актуальными данными, а еще архитекторам и руководителям дата-отделов. На вебинаре расскажем и покажем:
- как проектировать архитектуру конвейера под near real-time: когда брать микробатчинг в Managed Spark Streaming, а когда хватит классического батча;
- зачем нужен Managed Trino как единый слой запросов поверх «горячих» и «холодных» данных — и как это убирает дублирование логики;
- как партиционировать данные по времени в Object Storage, чтобы запросы не тормозили;
- как управлять схемой через Managed Metastore, когда структура потока меняется;
- как настроить дашборд в Managed BI с автообновлением и алертами на отклонения;
- как измерять латентность конвейера — от генерации события до появления на дашборде.
На практической части соберем реальный сценарий: оконная агрегация транзакций в Managed Spark Streaming, оркестрация через Managed Airflow, витрина в Object Storage, ad-hoc запросы через Managed Trino без копирования данных, дашборд с обновлением раз в две минуты. 📅 Когда? 21 мая в 11:00 мск. 📍 Где? Онлайн. Зарегистрируйтесь, чтобы задать вопросы спикеру в прямом эфире. P.S. А еще мы тут подготовили чек-лист, как создать качественное хранилище данных за 15 шагов — забирайте, нам не жалко. -Источник
|
|
|