Celestica DS6000 series: первая ласточка 1,6-терабитных сетей или массовый продукт?

Страницы:  1

Ответить
 

Professor Seleznov


pic
Сеть никогда не была самой гламурной частью ИИ-инфраструктуры. Все внимание всегда приковано к тысячам горячих GPU, которые с завидным упорством жгут электричество в дата-центрах, обучая очередную большую языковую модель. Но за любым масштабным ИИ-кластером невидимым фронтом стоит сетевая инфраструктура. Особенность современного ИИ-обучения в том, что это распределенная задача: сотни и тысячи ускорителей параллельно обмениваются гигабайтами данных. И как только сеть спотыкается, вся эта армия GPU простаивает в ожидании данных.
И вот на эту сцену выходит Celestica с DS6000. Именно эти коммутаторы призваны стать теми самыми невидимыми героями, которые должны накормить ваши ИИ-кластеры терабитами данных.
Celestica DS6000: два в одном на выбор
Одна из интересных находок Celestica в этой линейке — адаптация под разные сценарии работы дата-центров. Многие сейчас строят ИИ-фабрики на базе требований и стандартов Open Compute Project (OCP). Это достаточно актуальный тренд: лавируя между экспортными ограничениями и гонкой AI-вооружений, крупные игроки рынка стараются опираться на открытые стандарты, чтобы минимизировать риски.
Celestica выпустили две модификации коммутатора:
  • DS6000 — базовая модель. Классический 19-дюймовый форм-фактор 3U с воздушным охлаждением.
  • DS6001 — продвинутая версия. Формат под стойки OCP OpenRack(ORv3 ) 21-дюйм с гибридным воздушно-жидкостным охлаждением.
ИИ-кластеры переходят на прямоточное жидкостное охлаждение не только GPU, но и коммутационной инфраструктуры. Тепловыделение уже такое, что воздухом не справиться. И появление подобных гибридных решений говорит лишь о том, что 1,6 Тбит/с греются совсем не по-детски (до 6кВт потребления при максимальной нагрузке говорит о многом).
pic
Celestica DS6000 — базовая модель.Источник.
pic
Celestica DS6001 — модель  формата OCP ORv3.Источник.
Технические характеристики:
Параметр Значение
Коммутационная способность 102,4 Тбит/с (non-blocking)
Количество портов 64 x 1,6 Тбит/с (OSFP224)
Режимы работы портов 50GbE / 100GbE / 200GbE / 400GbE / 800GbE / 1.6TbE
Базовый чип (ASIC) Broadcom Tomahawk 6 (TH6)
Техпроцесс 3 нм (TSMC)
SerDes 200 Гбит/с на линию
Управление Intel Xeon-D (4/8/10 ядер), 64 ГБ DDR4
Охлаждение DS6000 Воздушное (3U, 19″ стойка)
Охлаждение DS6001 Гибридное (воздух + жидкость, 2OU, 21″ OCP ORv3)
Важно, читать как 2 OpenUnit.
Блоки питания DS6000 4 x 3200 Вт (горячая замена)
Блоки питания DS6001 48 В DC (шина OCP)
Рабочая температура От 0 до +40 °C
MTBF Более 150 000 часов
ОС SONiC (поддержка открытых стандартов)

О чем молчат спецификации
Broadcom Tomahawk 6 на сегодняшний день — один из главных козырей в колоде производителей высокопроизводительных сетевых решений. До анонса DS6000 этот чип уже гремел в индустрии, ведь это первый в мире Ethernet-коммутатор с пропускной способностью 102,4 Тбит/с, что ровно вдвое больше, чем у предшественника Tomahawk 5.
Сам Broadcom хвалится системой Cognitive Routing 2.0, которая обеспечивает расширенную телеметрию, динамический контроль перегрузки, быстрое обнаружение сбоев и обрезку пакетов, что обеспечивает глобальную балансировку нагрузки и адаптивное управление потоком в реальном времени. И для Celestica как OEM-партнера с хорошей инженерной базой интеграция такого сложного чипа в готовое изделие в одном из приоритетов.
pic
Новые GPU в облаке Selectel от 196,09 ₽/час
Видеокарты для ресурсоемких задач — NVIDIA® H100, H200, RTX™ 6000 Pro.
Подробнее →
Почему переход от 800G к 1.6T нужен уже сейчас
Переход на 1,6T ИИ-сетей — не прихоть маркетологов. Модели растут, и обучение современных LLM требует объединения десятков и сотен тысяч GPU в единый вычислительный кластер.
Переход с 800G на 1.6T решает две ключевые задачи:
  • Scale-Out (расширение наружу), то есть возможность соединять большее количество GPU с меньшим количеством уровней коммутации. С Tomahawk 6, говорят, можно соединить 128 000 XPU всего через два уровня коммутации, что резко снижает задержки и упрощает архитектуру сети.
  • Scale-Up (расширение вверх), то есть ускорение обмена данными внутри одной стойки или между соседними стойками, где один GPU может общаться с другими как с общей памятью.
Сами порты OSFP224 построены на 8 линиях по 200 Гбит/с внутри чипа и, конечно, поддерживают брейкаут-режимы для подключения более старых устройств через кабели-разветвители (MTP/MPO) - универсальность всегда была сильным местом Broadcom.
Открытость как стратегия: SONiC и OCP на страже vendor lock-in
Одна из важных архитектурных философий, которую Celestica закладывает в DS6000, это полная открытость стандартов. В отличие от полностью вертикально интегрированных решений от NVIDIA (их собственные коммутаторы Spectrum-X с их же Ethernet-стеками), Celestica делает ставку на сообщество.
Работа через открытые интерфейсы и ПО:
  • SONiC (Software for Open Networking in the Cloud). Сетевая операционная система с открытым исходным кодом, изначально разработанная Microsoft. Позволяет кастомизировать поведение сети под свои задачи без оглядки на вендора. Управлять тысячами портов и сотнями коммутаторов без привязки к конкретному производителю железа.
  • Соблюдение стандартов UEC и OCP ESUN. Ориентация на спецификации Ultra Ethernet Consortium и OCP гарантирует, что железо будет корректно взаимодействовать с сетевыми картами  разных производителей в единой гетерогенной среде. 
Все это говорит о том, что DS6000 изначально проектировался для корпоративных заказчиков и крупных ЦОД, которые хотят сохранить контроль над своей инфраструктурой.
Место в иерархии: сравнение с другими решениями
Чтобы понять, куда Celestica позиционирует DS6000, полезно взглянуть на конкурентное поле.
Параметр Celestica DS6000 NVIDIA Spectrum-X SN6000 Series Broadcom Tomahawk 6 Reference Design (Generic) Cisco 9000  Series
Коммутационная способность 102,4 Тбит/с до 409,6 Тбит/с  102,4 Тбит/с 51,2 Тбит/с
Порты 64 x 1,6T от 64 x 800G 64 x 1,6T 64 x 800G
Особенность Гибридное охлаждение, открытое ПО Интеграция с NVIDIA NIC, NCCL Референсный дизайн для OEM Зрелый софт, телеком-наследие
Охлаждение Air / Hybrid (Liquid) Air / Liquid Зависит от OEM Air
Цена (оценка) Доступен под заказ Будет недешево Низкая (OEM-партнерам) Высокая

DS6001 среди 1.6T-коммутаторов, совместимых с OCP ORv3 и жидкостным охлаждением, на рынке пока в единичных экземплярах. По сути, Celestica с этой моделью заняли довольно свободную нишу для требовательных к эффективности заказчиков.
Стоит ли смотреть в сторону 1,6T
Celestica DS6000 — это закономерная эволюция. Broadcom Tomahawk 6 дал рынку 102,4 Тбит/с, и Celestica одной из первых упаковала это в товарный продукт с двумя вариантами охлаждения, включая гибридный для OCP ORv3. Форм-факторы и поддержка SONiC делают коммутаторы гибким инструментом для крупных ЦОД, которые закладывают инфраструктуру на годы вперед.
Однако давайте смотреть на то, что есть в реальности. В типовых проектах, включая нашу инфраструктуру, на уровне доступа клиентам предоставляются стандартные скорости, которые давно стали индустриальной нормой. Аплинки агрегации и связи с роутерами могут работать на 100 Гбит/с и выше, но до 400GbE или 800GbE в массовом порядке пока далеко, тем более до 1,6T. Это просто факт: большинству дата-центров, даже тем, кто предоставляет GPU-серверы, такие полосы не требуются ежедневно.
Что это значит для DS6000? Для задач инференса, обучения моделей среднего размера, для парков из десятков или даже сотен GPU текущих скоростей 100-400GbE за глаза. Если вы строите кластер на тысячи самых горячих ускорителей и упираетесь именно в сеть, то DS6000 может быть актуальна. Но такой сценарий — удел единиц. Стоимость 1,6T трансиверов, оптических кабелей и всей необходимой обвязки для построения инфраструктуры пока остается запредельной для пробных внедрений.
В наших дата-центрах мы пока работаем на проверенных решениях, а Celestica DS6000 держим на радаре. Как только появятся реальные проекты с требованиями к 1,6T, будем тестировать и делиться результатами. А пока продукт для первых ласточек, которые готовы платить за неиспользуемый сегодня запас.-Источник
 
Loading...
Error