Пост @vibecodingai — Машинное обучение (+1) — 14.05.2026 13:11

Страницы:  1

Ответить
 

Professor Seleznov


✔️ GPT 5.5 полностью решила задание из бенчмарка ProgramBench
pic
Команда ProgramBench сообщила (https://programbench.com/blog/gpt-5-5-first-solve/), что модель GPT 5.5 в режимах high и xhigh впервые в истории теста полностью прошла одно из заданий - задачу cmatrix (https://github.com/abishekvashok/cmatrix).
До этого ни одна модель из публичного рейтинга не доводила задания до конца.
ProgramBench - набор реальных задач программирования, в которых агент должен с нуля переписать утилиту с открытым исходным кодом и пройти при этом скрытые поведенческие тесты.
🟡Лидерборд выглядит так
🟢GPT 5.5 (xhigh) - 1 место: 0,5% полностью решённых задач и 13,5% почти решённых (то есть проходящих свыше 95% поведенческих тестов)
🟠GPT 5.5 (high) - те же 0,5% при 5% почти решённых
🟠Claude Opus 4.7 (xhigh) показала 0% и 4,5%, обычная версия Opus 4.7 - 0% и 3%
🟠Opus 4.6 - 0% и 2,5% соответственно
Совокупно число почти решённых задач у GPT 5.5 достигло 26, это рекорд рейтинга.
Примечательно, что в режиме medium, который OpenAI выставляет по умолчанию, GPT 5.5 лишь незначительно опережает Claude Sonnet 4.6. При включении расширенного рассуждения её результат заметно улучшается.
🟡Разброс по стоимости
Запуск GPT 5.5 (high) стоил $3,17 и потребовал 34 обращения к API, GPT 5.5 (xhigh) - $4,84 и 40 обращений.
Тот же запуск Claude Opus 4.7 (xhigh) обошёлся в $10,74 при 178 обращениях, однако решение содержало 19 ошибок в поведенческих тестах.
По разбору авторов, все провалы объясняются 2-мя багами в коде Claude: чувствительностью парсера цветов к регистру и неверным кодом возврата.
Интересно, что 2 версии GPT 5.5 выбрали разные языки для одной и той же задачи: high решала на C с ANSI escape-последовательностями, xhigh предпочла Python.
Claude Opus 4.7 (xhigh) использовала библиотеку ncurses и команда бенчмарка охарактеризовала этот подход как креативное системное решение, которое, впрочем, не дало преимущества в итоговом результате.
#news #ai #ml-Источник
 
Loading...
Error