Главная· Трекер· Новое· Поиск· Правила· FAQ· Группы· Окончание фрилича через

Почему нельзя просто взять и сгенерировать идеальную иллюстрацию

Страницы: 1

Professor Seleznov

Графические нейронки подарили редакторам сайтов, телеграм-каналов и прочим вебмастерам хорошую возможность – создать иллюстрации по текстовому описанию. Текст есть, ИИ-генератор есть, в чем же проблема?
Проблема не столько в том, что иллюстрация может не подойти к материалу или к стилю сайта. Проблема в том, что ИИ-модели, даже самые мощные, не так-то просто заставить креативить. То есть, выдавать что-то небанальное и интересное.
Особенно если вы не готовы сформулировать максимально точно, что хотите получить.
Возьмем для примера вполне реальный кейс– у вас есть тематический сайт или канал, где выходит определенное количество публикаций в день, и есть задача – добавлять к каждой публикации картинку.
От иллюстрации не требуется быть шедевром, но она должна:

более-менее соответствовать тексту материала;
иллюстрировать содержание или как-то обыгрывать его;
сохранять преемственность с другими картинками – это может быть одна общая концепция, может быть фирменный стиль или цвет;
не быть нейрослопом – ну, то есть, у читателя как минимум не должно возникать желание вставить себе миксер в глаза, в идеале – чтобы картинку хотелось разглядывать;
создаваться быстро – ясно что не моментально, но у вас нет 30 минут на выписывание промпта для каждой картинки.

Если вы постите 1 статью в неделю, то можно перепробовать с десяток вариантов и выбрать самый нормальный. Но что, если у вас контент-план на 10-20 материалов в день?
Столкнувшись с этой задачей, я подошел к делу, как мне казалось, основательно.
Схема контент-генерации была примерно такой:

нужен один универсальный шаблон промпта, по которому ИИ будет генерировать текстовый промпт для генерации картинки;
для каждой иллюстрации к этому шаблону добавляется фактура: либо текст нашего материала, либо ссылка на первоисточник (если рерайт);
полученный промежуточный промпт скармливается любой текстовой/универсальной LLM – той, которая больше нравится или по опыту справляется лучше с этой задачей;
полученный на выходе текстовый промпт для генерации изображения – правильно структурированный, с детально прописанным стилем и техническими параметрами, плюс его при желании можно еще подправить руками;
этот текстовый промпт отдаем подходящей графической нейронке – и получаем готовую иллюстрацию.

В теории, все должно работать. Мы знаем, что графическая нейросеть заточена изображать то, что написано в промпте. У нее значительно меньше контекстное окно и в целом более скромные навыки ризонинга. Поэтому на промежуточном этапе мы отдаем сложную вычислительную задачу мощной текстовой LLM.
То есть, большая мощная LLM на все свои 20-50-100 миллиардов параметров придумывает нам сюжет картинки, детально его прописывает, учитывает все требования по стилю и ограничения. А потом глубоко специализированная графическая модель рисует картинку по этому заданию.
Первые тесты, тогда еще с Nano Banana 1, показали неплохие (по тем временам) результаты:

Что получилось

Это была новость о том, как дроны с ИИ помогают выращивать рис

Илон Маск делает Grok 2.5 опенсорсным

В итоге я начал использовать этот алгоритм на постоянной основе – лишь периодически что-то подправлял в универсальном шаблоне промпта. Ну и имел по одному разному шаблону на каждый проект.
Но со временем результат перестал радовать.По основным проектам мне было нужно, чтобы картинки были забавными и слегка саркастичными. Я усиливал и усиливал промпт увеличением количества слова sarcastic в разных вариантах, менял структуру, но сарказма не прибавлялось совсем.
Проблема была в том, что сюжет картинки хоть и формально коррелировал с содержанием материала, с первого взгляда связь было уловить сложно. Чтобы увидеть сарказм, нужно было внимательно прочитать текст (дважды), а потом внимательно рассмотреть картинку. И даже тогда смысл был, ну прямо скажем, не очевидным.
Для начала я перепробовал практически все современные LLM для генерации текстового промпта. В итоге больше всего понравился DeepSeek для «ироничных» иллюстраций в псевдо-реалистичном стиле, и Gemini 3.1 Pro для картинок в техно-стиле. GPT-5.4 и Claude Sonnet 4.6 почему-то справлялись чуть похуже, как и Sonar от Perplexity.
Переход на другие графические нейронки тоже не помог. Например, на Nano Banana Pro/2 привычный алгоритм в половине генераций начал выдавать ошибку (как я понял, модель сильно «задушили» по части изображения реальных людей и брендов). А стиль стал сильно прыгать от мультяшного к гиперреалистичному. Так что промпты с участием реальных людей приходится отдавать GPT-Image, хотя и она далеко не идеальна.
Примерно тогда я наткнулся на Хабре на статью «Это вам не шутки: как я пыталась отучить LLM петросянить».
Тогда пазл и сложился окончательно: если LLM еще как-то может определить наличие сарказма в готовом материале (вычислив его по паттернам саркастических материалов, на которых обучалась), то пройти этот путь в обратном направлении – уже нет. Поэтому научить нейронку шутить на автомате – задача практически невыполнимая.
Как я в итоге вышел из ситуации:для креатива подключил человеческий мозг, оставив за LLM лишь додумывание деталей и техническую работу.
На практике это означает, что кроме исходного шаблона я каждый раз дописываю руками в 1-2 предложения общую идею картинки.
К примеру, у нас есть новость о том, что Luma Labs открывает доступ по API к модели Uni-1.1. Как это описать словами? Ну, предположим: «робот-художник, к которому по USB-кабелю можно подключить смартфон». Создаем промпт, по промпту создаем картинку:

Не идеально, и в первом варианте на переднем плане была еще одна рука с телефоном
Или новость про новую голосовую модель Thinking Machines Lab от Миры Мурати. Пусть будет «в стиле кадров из фильмов про шпионов и спецслужбы времен Холодной войны. Робот сидит на прослушке в наушниках и делает записи в журнале»:

Издержки человеческого интеллекта - ИИ в основном ассоциируется с роботам
Важно, что LLM получает не только одно это предложение с сюжетом картинки, но и весь исходный текст. Вся фактура в итоге учитывается в деталях картинки. Например, мне важно, чтобы в картинке был один цветовой акцент – DeepSeek прописывает, в чем именно он должен выражаться.
Но вообще, это все очень далеко от идеала. Во-первых, не всегда есть идеи, а во-вторых, далеко не всегда нейронка способна эту идею изобразить корректно. Но в целом процент иллюстраций, которые можно принять с первого раза, достаточно большой. Точно выше, чем если творчеством занимается только ИИ.
Остается лишь надеяться, что следующие версии LLM смогут в реверс-инжиниринг человеческого юмора, и нам не придется выдумывать все эти костыли.-Источник

Пользовательское Соглашение | Связь с администрацией

SysAdmin.Guru · Telegram-канал

Loading...

Error