20 лет видеокарт в цифрах: как росли FLOPS и TDP и кто вёл в дуэли NVIDIA vs AMD (+ открытый датасет на 13 500 GPU)

Страницы:  1

Ответить
 

Professor Seleznov


Мы держим каталог видеокарт и накопили базу на 13 566 GPU — от GeForce 256 (1999) до Blackwell и MI355X (2025). В какой-то момент стало интересно, как менялась индустрия: насколько выросли FLOPS, во что упёрся TDP, и кто вёл в гонке NVIDIA против AMD в разные годы.
Ниже — разбор по нашим данным. Сразу скажу, что зафиксировал: методологию (что и как считал, где данные шумят) и открытый датасет в конце статьи — забирайте и копайте вместе с нами 😊
TL;DR
  • Пиковый FP32 флагмана вырос ~в 400 раз за 19 лет: 0.3 TFLOPS (GeForce 8800 GTX, 2006) → 126 TFLOPS (Blackwell, 2025). Это почти ровная экспонента в полулог-масштабе.
  • TDP полз медленно (155 → 300 Вт за 2006–2020), а потом рванул в датацентре: 700 Вт (H100), 1000 Вт (MI325X / B200), 1400 Вт (MI355X, 2025).
  • При этом производительность на ватт выросла ~в 100 раз — то есть «жрут больше», но «делают на ватт кратно больше». Главный драйвер — техпроцесс (90 нм → 3 нм) и архитектура.
  • Дуэль NVIDIA/AMD по пиковому FP32 менялась волнами: AMD вела в начале 2010-х (эра GCN) и снова в 2023–24 (Instinct MI300/MI325), NVIDIA — в 2016–2020 (разворот в ИИ) и в 2025 (Blackwell). Но «сырой FP32» — обманчивая метрика, и об этом ниже.
Методология
  • Что такое эти TFLOPS и почему они «теоретические». Все FP32-числа в статье — это теоретический пик, который вендоры считают по формуле:
    FP32 TFLOPS = (число шейдерных ALU / CUDA-ядер) × boost-частота, Гц × 2 / 10¹²
    
    Множитель ×2 — потому что инструкция FMA (fused multiply-add) делает умножение и сложение за один такт, то есть две операции. Это потолок, а не реальная производительность: на практике достигается ощутимо меньше — обычно 60–90% на хорошо оптимизированных compute-bound ядрах и кратно меньше на memory-bound, — потому что мешают пропускная способность памяти, занятость SM, состав инструкций и тот факт, что boost-частота не держится постоянно под нагрузкой и тепловым лимитом. Расхождение теории и практики — это норма. Теоретический пик ценен другим: он считается по одной формуле для всех карт и поколений, поэтому это честная сопоставимая линейка для исторического сравнения — её и указывают в спеках, её и используем мы. Реальную производительность меряют уже бенчмарками (они в датасете отдельной таблицей).
  • Источник — наша база спецификаций. «Флагман года» = карта с максимальным fp32_performance, выпущенная в этом году, отдельно по NVIDIA и AMD.
  • Для кривой TDP/эффективности я исключил dual-GPU карты (GTX 295, HD 6990, R9 295X2 и т. п.) — иначе TDP и FLOPS задваиваются и ломают тренд.
  • Где данные шумят:
    • vendor проставлен у ~2 360 из 13 566 карт (остальное — в основном OEM-варианты партнёрских плат). Медианы считаю по размеченной выборке; пики флагманов размечены полностью.
    • FP16/tensor-производительность между вендорами в лоб не сравнима — из-за structured sparsity. Начиная с Ampere (A100), NVIDIA в спеках указывает тензорные FP16/BF16 уже с учётом sparsity — это ×2 к «плотному» (dense) значению (фича обрабатывает разреженные матрицы вдвое быстрее). В нашей базе для таких карт хранится именно эта «sparse»-цифра. У AMD аналогичной строки в спеках нет — там dense. Поэтому сырой столбец FP16 у NVIDIA (A100+) нужно делить на 2, чтобы сравнивать с AMD честно: A100 = 624 (sparse) → 312 dense, H100 = 1979 → ~990 dense. Раздел про «AI-перелом» ниже опирается на эти приведённые к dense числа.
1. FLOPS: почти ровная экспонента
Пиковый FP32 одиночного флагмана по годам (NVIDIA):
Год Флагман FP32, TFLOPS
2006 GeForce 8800 GTX 0.3
2010 GeForce GTX 580 1.6
2013 GeForce GTX 780 Ti 5.3
2016 Quadro P6000 12.6
2017 Tesla V100 15.7
2020 RTX A6000 38.7
2022 L40S 91.6
2025 RTX PRO 6000 Blackwell 126.0

≈400× за 19 лет — это CAGR около 37% в год. В полулогарифмическом масштабе линия почти прямая: классическая экспонента, которая лишь недавно начала загибаться на «настольном» сегменте и переехала в датацентр.
pic
График: FP32 флагманов NVIDIA и AMD по годам (лог-шкала)
2. TDP: тихий рост, затем датацентровый взрыв
Год Карта TDP, Вт
2006 GeForce 8800 GTX 155
2010 GTX 580 244
2017 Tesla V100 250
2020 RTX A6000 300
2022 H100 SXM 700
2024 MI325X / B200 1000
2025 MI355X 1400

Полтора десятилетия TDP флагмана держался в коридоре 150–300 Вт. Перелом — после 2020-го, и он целиком датацентровый: ускорители для ИИ (SXM/OAM-модули) выскочили на 700–1400 Вт, потому что их охлаждают не кулером в корпусе, а жидкостью в стойке. Настольный потолок отдельно упёрся в ~450–600 Вт (RTX 4090/5090).
Любопытный разрыв виден, если посмотреть отдельно на потребительские флагманы NVIDIA: GeForce-флагман семь лет (2013–2019) простоял ровно на 250 Вт — GTX 780 Ti, Titan X, 1080 Ti, 2080 Ti, — и прорвал этот потолок только с RTX 3090 (350 Вт, 2020), дальше 4090 (450 Вт) и 5090 (575 Вт). А вот датацентровые ускорители ушли на 700–1400 Вт почти сразу. Похоже, выше игровой TDP пускал не столько кремний, сколько рынок — корпуса, блоки питания и привычки покупателей; в стойке таких ограничений нет, и там ватты росли без оглядки. (Это интерпретация: спека хранит ватты, а не намерения — но 250-ваттное плато на семь поколений в данных видно отчётливо.)
pic
График: TDP флагманов, с пометкой «настольные» vs «датацентровые модули»
3. Производительность на ватт: вот это и есть прогресс
Если смотреть только на TDP, кажется «всё хуже, карты жрут как не в себя». Но FP32 на ватт рассказывает обратное:
Год Флагман TFLOPS/Вт
2006 8800 GTX 0.002
2013 GTX 780 Ti 0.021
2016 Quadro P6000 0.051
2020 RTX A6000 0.129
2022 L40S 0.262
2025 RTX PRO 6000 Blackwell 0.21

~100× по эффективности. Пик «классической» эффективности приходится на 2022 (Ada/L40S); датацентровые карты 2024–25 местами проигрывают по TFLOPS/Вт, потому что сознательно меняют эффективность на абсолютную плотность вычислений в стойке. Главные драйверы роста эффективности — техпроцесс (90 нм → 3 нм) и архитектурные улучшения, а не частоты.
pic
График: TFLOPS/Вт по годам (двойная линия N/AMD)
4. Дуэль NVIDIA vs AMD
Если по годам отмечать, чей одиночный флагман имел больший FP32:
Период Лидер Контекст
2007–2008 AMD FireStream 9170/9270
2010–2013 AMD GCN: HD 6970, HD 7970 GHz, R9 290X
2014 NVIDIA Titan Black (5.6) vs FirePro W9100 (5.2)
2015 AMD Fury X (8.6)
2016–2020 NVIDIA Pascal → Ampere, разворот в ИИ
2021 AMD Instinct MI250X (47.9)
2022 NVIDIA L40S / Hopper
2023–2024 AMD Instinct MI300A/MI325X (81.7)
2025 NVIDIA Blackwell (126)

Картина волнообразная и привёл я её только для интриги, чтобы хоть как-то дать AMD шанс. Ведь по сырому FP32 AMD регулярно выбивала лидерство — в эру GCN и снова на свежих Instinct. Но именно сырой FP32 — обманчивая метрика для современного мира. Эра ИИ выигрывается не на FP32, а на софте и FP16/BF16/FP8. Здесь NVIDIA с tensor-ядрами (начиная с V100, 2017) и экосистемой CUDA построила ров, который цифрами одного только FP32 не виден: V100 дал ~125 TFLOPS tensor-FP16, A100 — ~312, H100 — ~990 (публичные данные вендора). То есть «дуэль по FP32» — это про прошлое железа как графического ускорителя; настоящая битва ушла в плоскость, которую FP32 не измеряет.
pic
Таймлайн-«дуэль»: по годам, чей флагман выше по FP32 (ступенчатая раскраска зелёный/красный)
Поэтому, +1 график с FP16-дуэлью, где NVIDIA стабильно впереди. А если на это накинуть ещё и софт для ИИ…
pic
График: AI-перелом — пиковый tensor/matrix FP16 (dense) vs FP32 по годам, лог-шкала
5. Что ещё видно в данных
  • Техпроцесс: 90 нм (2006) → 28 нм (плато 2012–2015, «застрявший узел») → 16/12/7 → 3 нм (MI355X, 2025).
  • VRAM флагмана: 0.77 ГБ (8800 GTX) → 12–24 ГБ (середина 2010-х) → 48 ГБ (A6000) → 192–288 ГБ (MI300/MI355X). Память растёт даже быстрее, чем компьют, — потому что модели ИИ упираются в неё.
  • «Застрявшие» 28 нм: четыре года (2012–2015) индустрия сидела на одном узле — и именно тогда AMD держала паритет/лидерство по FP32. Как только пошёл рывок по техпроцессу и появились tensor-ядра, преимущество качнулось к NVIDIA.
Открытый датасет — забирайте
Выложили очищенный дамп нашей базы характеристик GPU — для тех, кто хочет покопать сам:
📦 Скачать: gpuark.com/datasets — файлы gpuark-gpu-specs.csv, gpuark-benchmarks.csv, gpuark-gpu-dataset.sqlite, либо всё одним архивом gpuark-gpu-dataset.tar.gz.
  • 13 566 GPU (поля: вендор, производитель, дата выпуска, архитектура, техпроцесс, транзисторы, частоты, объём и тип памяти, шина, FP16/FP32/FP64/BF16/TF32/INT8, TDP, NVLink, CUDA SM и др.) + 993 результата сторонних бенчмарков (джойнятся по gpu_id).
  • Форматы: CSV (Excel/pandas) и SQLite (готовые SQL-запросы) — две таблицы gpu_specs и benchmarks.
  • Лицензия: CC BY 4.0 (атрибуция на gpuark.com).
Выводы
  • FLOPS росли почти ровной экспонентой (~37%/год) — но «бесплатный» рост закончился, дальше платим TDP и переездом в стойку.
  • Реальный прогресс измеряется не ваттами и не сырым FP32, а производительностью на ватт (×100) — и она держится на техпроцессе.
  • AMD по «сырым» числам бодалась и лидировала чаще, чем принято думать; но эру ИИ определил не FP32, а tensor + софт.
Данные открыты — если найдёте в них что-то, чего мы не заметили, напишите.-Источник
 
Loading...
Error