|
Professor Seleznov
|
Без пресс-релиза, без технического блога, без корпоративного бренда — текст-в-видео модель под именем HappyHorse-1.0 тихо заняла первое место на Artificial Analysis Video Arena, обогнав Seedance 2.0. Разбираем: кто это сделал, как устроена архитектура и почему этот момент важен для всего опен-сорс видео-AI. Нейросеть [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/happy_horse]Happy Horse[/url] уже доступна на [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/happy_horse]Study AI[/url] для тестирования и генерации видео. Также в прошлой статей мы сгенерировали видео для наглядного результат по одинаковому промпту в популярных нейросетях [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/happy_horse]HappyHorse 1.0[/url], [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/google_veo3]Veo 3.1[/url], [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/kling_3]Kling 3.0[/url] и [url=https://eduforms.org СПАМ &ulp=https://study24.ai/chat/aleph_video]Runway[/url].

Рейтинг Artificial Analysis Video Arena Рейтинг Artificial Analysis Video Arena строится не на технических бенчмарках, а на Elo-баллах из слепых тестов реальных пользователей — то есть на субъективных предпочтениях после просмотра. Это делает результат труднее оспариваемым, чем обычные таблицы метрик. И именно поэтому вопрос «кто вообще это сделал?» стало невозможно игнорировать. Техсообщество в X устроило настоящий детектив. Улики собирались методично. Улика 1: порядок языков на сайте На официальном сайте мандаринский и кантонский языки стоят выше английского. Для продукта, нацеленного на глобальную аудиторию, это нетипично — американская команда не поставила бы английский на второе место. Вывод: команда из Китая. Улика 2: год Лошади 2026 — год Лошади по китайскому лунному календарю. «HappyHorse» — это довольно очевидная отсылка. В начале года аналогичный трюк уже использовала «Pony Alpha». Круг подозреваемых быстро расширился: основатели Tencent и Alibaba носят фамилию Ма («лошадь» по-китайски); часть сообщества ставила на Xiaomi или DeepSeek. Улика 3: совпадение метрик до последней цифры Пользователь X по имени Vigo Zhao сравнил публичные бенчмарки HappyHorse-1.0 с известными моделями и нашёл идеальное совпадение — daVinci-MagiHuman, опен-сорс модель, выложенная на GitHub в марте 2026 года.
| Метрика |
HappyHorse-1.0 |
daVinci-MagiHuman |
Совпадение |
| Визуальное качество |
4.80 |
4.80 |
вњ“ точное |
| Соответствие тексту |
4.18 |
4.18 |
вњ“ точное |
| Физическая консистентность |
4.52 |
4.52 |
вњ“ точное |
| WER lip-sync |
14.60% |
14.60% |
вњ“ точное |
| Архитектура |
Single-stream Transformer |
Single-stream Transformer |
вњ“ совпадает |
| Языки lip-sync |
EN, ZH, CA, JP, KO, DE, FR |
EN, ZH, CA, JP, KO, DE, FR |
вњ“ совпадает |
Наиболее признанная версия в техсообществе: HappyHorse — это итеративная версия от Sand.ai, одного из соавторов daVinci-MagiHuman, оптимизированная под реальные пользовательские предпочтения. Цель — проверить потолок модели в слепых тестах и подготовить почву для коммерциализации. Кто создал daVinci-MagiHuman? Модель опен-сорснута 23 марта 2026 года как совместный проект двух молодых команд. Первая — лаборатория GAIR (Generative AI Research) при Шанхайском институте инноваций, под руководством учёного Лю Пэнфэя. Вторая — пекинская компания Sand.ai (Sandai Technology), основанная Цао Юэ с академическим бэкграундом; её специализация — авторегрессионные world models. 23 марта 2026 daVinci-MagiHuman опубликована на GitHub командами GAIR Sand.ai нач. апреля 2026 HappyHorse-1.0 появляется на Artificial Analysis Video Arena без каких-либо анонсов ~7–8 апреля 2026 HappyHorse занимает #1, опережая Seedance 2.0 по Elo. Техсообщество начинает расследование 8–10 апреля 2026 Vigo Zhao публикует сравнение метрик, совпадение подтверждается. Версия о Sand.ai признаётся наиболее вероятной Часть 2. Архитектура: что внутри Главное техническое отличие HappyHorse / daVinci-MagiHuman от конкурентов — unified single-stream Transformer: текст, видео и аудио токены помещаются в одну последовательность и моделируются совместно. В опен-сорс сообществе до этого никто не делал настоящего аудио-видео joint pre-training с нуля. Большинство моделей соединяют отдельные модальности постфактум. Ключевые технические особенности
| Компонент |
Как работает |
Почему важно |
| Joint audio-video |
Аудио- и видеотокены в одной последовательности трансформера |
Звук и картинка планируются совместно — нет проблемы «синхронизации после» |
| Lip-sync |
Выравнивание речь↔мимика встроено в архитектуру на уровне фонем |
WER 14.60%, 7 языков — видимо лучший показатель среди публично известных моделей |
| Latent super-res |
5 дополнительных шагов диффузии в латентном пространстве до декодирования |
1080p — не ресайз, а восстановление деталей; острее текстуры и лица |
| Дистилляция |
Быстрая версия модели для итерации |
Заметно короче время генерации в†’ удобнее перебирать промпты |
| Prompt fidelity |
Сложные описания удерживаются лучше, чем у конкурентов |
Можно не упрощать промпт заранее |
Часть 3. Почему #1 — и в чём подвох Почему так быстро вышло на первое место? daVinci-MagiHuman открылась 23 марта, а уже через две недели HappyHorse обогнала Seedance 2.0 по Elo. Как? Elo-система — это накопление пользовательских предпочтений в слепых сравнениях. Если немного улучшить чувствительные к восприятию вещи — стабильность мимики, выравнивание аудио и видео, визуальная приятность кадра — выбор в слепом тесте становится более вероятным. Потолок модели не меняется, но «оценочная производительность» полируется. В слепых тестах Artificial Analysis портретный контент и озвучка составляют более 60% выборки. daVinci-MagiHuman изначально ориентирована на портретный рендеринг — это даёт ей системное преимущество именно в этом распределении тестов. Если тесты смещены в сторону портретов, портретная модель будет выигрывать вне зависимости от реальной универсальности. Что говорят скептики Блогер @JACK's AI World сразу задеплоил daVinci-MagiHuman и провёл реальное тестирование. Выводы:
| Проблема |
Детали |
| Требования к железу |
Нужен H100. Обычные потребительские карты не тянут |
| Мультиперсонажные сцены |
При появлении нескольких людей или сложного фона качество падает — это не баг настроек, а следствие фокуса на портретах |
| Длинные генерации |
При длительности больше ~10 секунд картинка начинает «разъезжаться» |
| Full-HD без плагина |
Для высокого разрешения нужен внешний super-res плагин |
| Итог по юзабилити |
Уступает LTX 2.3 по комплексной применимости; для повседневного использования нужна сначала количизация от сообщества |
На X сообщество разделилось: скептики считают, что в деталях персонажей и динамической связности HappyHorse-1.0 всё ещё уступает Seedance 2.0. Поклонники возражают — и надеются, что модель решит боль «консистентности картинки между кадрами в мульти-шот сиквенсах», которую мейнстримные модели до сих пор не решили. Часть 4. Сравнение с конкурентами
| Место |
Модель |
Сильная сторона |
| №1 |
HappyHorse 1.0 |
Портреты интегрированное аудио |
| №2 |
Seedance 2.0 |
Мультиассеты, сцены |
| №3 |
Kling 3.0 |
4K, мульти-персонажи |
| №4 |
Veo 3.1 |
Физика, длинные сцены |
| №5 |
Sora 2 Pro |
Кинематографика, окружение |
* Условная визуализация на основе данных Artificial Analysis Video Arena HappyHorse vs Seedance 2.0 Happy Horse лучше
- Портретный реализм и мимика
- Аудио в одном transformer-потоке
- Работает по тексту без референсов
Seedance 2.0 лучше
- До 9 изображений 3 видео в одной генерации
- Консистентность персонажей между сценами
- Клонирование движения
HappyHorse vs Kling 3.0 HappyHorse лучше
- Фонемный lip-sync, 7 языков
- Мимика для одного персонажа
- Архитектурно интегрированный звук
Kling 3.0 лучше
- Мульти-персонажные сцены
- Нативное 4K
- Мульти-промпт сторителлинг
HappyHorse vs Veo 3.1 HappyHorse лучше
- Портрет диалог
- Аудио в той же последовательности
- Точность по одному персонажу
Veo 3.1 лучше
- Физически сложные сцены
- Расширение до 30 секунд
- Мультиреференсная композиция
Кейсы применения
- Цифровые люди и виртуальные ведущие
- Лучший сценарий: один персонаж, диалог, реализм мимики
- Мультиязычный маркетинг
- Spokesperson-видео с lip-sync на 7 языков без пересъёмки
- Обучающий контент
- Объясняющие видео с синхронизированной речью
- E-commerce
- Продуктовые видео с консистентным брендом
- Прототипирование
- Быстрые черновики сцен до полного продакшна
Примеры промптов Модель хорошо реагирует на конкретику: субъект, действие, тон, аудио. Несколько рабочих примеров под сильные стороны. HappyHorse:
Женщина из Кореи, которой чуть больше 30 лет, сидит за деревянным столиком в кафе и говорит на корейском языке на камеру. Тихий фоновый шум кафе. Небольшая глубина резкости, теплое вольфрамовое освещение, крупный план.
Портретное видео , взрослая девушка 20 на фоне моря, лёгкий ветер, волосы немного развеваются, мягкая естественная улыбка, утренний свет, пастельные цвета, кинематографичный реализм, спокойная атмосфера, slow motion.
Часть 5. Почему это важнее, чем строчка в рейтинге Исторически между опен-сорс и закрытыми видеомоделями существовал очевидный разрыв в качестве. В сценариях, где результат нужно сдавать клиенту, опен-сорс генерация долго не могла перейти порог от «работает» до «сдаётся». На этом разрыве стояла вся ценовая политика Kling и Seedance. Теперь впервые продукт на базе опен-сорс модели напрямую сравнялся с ведущими закрытыми конкурентами в слепых пользовательских тестах. Сколько бы ни было оптимизации под сценарий оценки — для закрытых вендоров это сигнал, который нельзя игнорировать. Для разработчиков практическое значение точки перелома конкретно: в вертикальных нишах (портреты, цифровые люди, виртуальные ведущие) как только качество опен-сорс основы достигает порога «сдаётся», структура затрат на деплой меняется кардинально. Это не только про сжатие стоимости API-вызовов. Это про полный контроль над данными, моделью и инференсом, а также гибкость в кастомизации и соответствии требованиям приватности, которую закрытые решения не могут предоставить. HappyHorse-1.0 не перевернёт рыночные позиции Seedance 2.0 или Kling 3.0 в краткосрочной перспективе. Но как только укрепится восприятие, что опен-сорс по качеству может равняться с закрытыми моделями, последующая оптимизация квантизации, вертикальный файнтюнинг и ускорение инференса будут итерироваться сообществом с куда большей скоростью, чем закрытые продукты способны поддерживать. Итог. HappyHorse 1.0 — это, по всей видимости, Sand.ai-оптимизация поверх daVinci-MagiHuman, открытой 23 марта 2026. Модель с уникальной архитектурой (joint audio-video трансформер, 15B параметров, честный 1080p через latent super-res, фонемный lip-sync на 7 языков) заняла #1 в реальных пользовательских тестах. При этом она всё ещё требует H100, плохо работает с мульти-персонажными сценами и длинными сегментами. Победа в лидерборде частично объясняется смещением тестовой выборки в сторону портретов — именно туда, где модель изначально заточена.-[url=https://habr.com/ru/companies/studyai/articles/1031548/?utm_source=habrahabr &utm_medium=rss &utm_campaign=1031548]Источник[/url]
|