|
Professor Seleznov
|
Графические нейронки подарили редакторам сайтов, телеграм-каналов и прочим вебмастерам хорошую возможность – создать иллюстрации по текстовому описанию. Текст есть, ИИ-генератор есть, в чем же проблема? Проблема не столько в том, что иллюстрация может не подойти к материалу или к стилю сайта. Проблема в том, что ИИ-модели, даже самые мощные, не так-то просто заставить креативить. То есть, выдавать что-то небанальное и интересное. Особенно если вы не готовы сформулировать максимально точно, что хотите получить. Возьмем для примера вполне реальный кейс– у вас есть тематический сайт или канал, где выходит определенное количество публикаций в день, и есть задача – добавлять к каждой публикации картинку. От иллюстрации не требуется быть шедевром, но она должна:
- более-менее соответствовать тексту материала;
- иллюстрировать содержание или как-то обыгрывать его;
- сохранять преемственность с другими картинками – это может быть одна общая концепция, может быть фирменный стиль или цвет;
- не быть нейрослопом – ну, то есть, у читателя как минимум не должно возникать желание вставить себе миксер в глаза, в идеале – чтобы картинку хотелось разглядывать;
- создаваться быстро – ясно что не моментально, но у вас нет 30 минут на выписывание промпта для каждой картинки.
Если вы постите 1 статью в неделю, то можно перепробовать с десяток вариантов и выбрать самый нормальный. Но что, если у вас контент-план на 10-20 материалов в день? Столкнувшись с этой задачей, я подошел к делу, как мне казалось, основательно. Схема контент-генерации была примерно такой:
- нужен один универсальный шаблон промпта, по которому ИИ будет генерировать текстовый промпт для генерации картинки;
- для каждой иллюстрации к этому шаблону добавляется фактура: либо текст нашего материала, либо ссылка на первоисточник (если рерайт);
- полученный промежуточный промпт скармливается любой текстовой/универсальной LLM – той, которая больше нравится или по опыту справляется лучше с этой задачей;
- полученный на выходе текстовый промпт для генерации изображения – правильно структурированный, с детально прописанным стилем и техническими параметрами, плюс его при желании можно еще подправить руками;
- этот текстовый промпт отдаем подходящей графической нейронке – и получаем готовую иллюстрацию.
В теории, все должно работать. Мы знаем, что графическая нейросеть заточена изображать то, что написано в промпте. У нее значительно меньше контекстное окно и в целом более скромные навыки ризонинга. Поэтому на промежуточном этапе мы отдаем сложную вычислительную задачу мощной текстовой LLM. То есть, большая мощная LLM на все свои 20-50-100 миллиардов параметров придумывает нам сюжет картинки, детально его прописывает, учитывает все требования по стилю и ограничения. А потом глубоко специализированная графическая модель рисует картинку по этому заданию. Первые тесты, тогда еще с Nano Banana 1, показали неплохие (по тем временам) результаты:
Что получилось

Это была новость о том, как дроны с ИИ помогают выращивать рис

Илон Маск делает Grok 2.5 опенсорсным
В итоге я начал использовать этот алгоритм на постоянной основе – лишь периодически что-то подправлял в универсальном шаблоне промпта. Ну и имел по одному разному шаблону на каждый проект. Но со временем результат перестал радовать.По основным проектам мне было нужно, чтобы картинки были забавными и слегка саркастичными. Я усиливал и усиливал промпт увеличением количества слова sarcastic в разных вариантах, менял структуру, но сарказма не прибавлялось совсем. Проблема была в том, что сюжет картинки хоть и формально коррелировал с содержанием материала, с первого взгляда связь было уловить сложно. Чтобы увидеть сарказм, нужно было внимательно прочитать текст (дважды), а потом внимательно рассмотреть картинку. И даже тогда смысл был, ну прямо скажем, не очевидным. Для начала я перепробовал практически все современные LLM для генерации текстового промпта. В итоге больше всего понравился DeepSeek для «ироничных» иллюстраций в псевдо-реалистичном стиле, и Gemini 3.1 Pro для картинок в техно-стиле. GPT-5.4 и Claude Sonnet 4.6 почему-то справлялись чуть похуже, как и Sonar от Perplexity. Переход на другие графические нейронки тоже не помог. Например, на Nano Banana Pro/2 привычный алгоритм в половине генераций начал выдавать ошибку (как я понял, модель сильно «задушили» по части изображения реальных людей и брендов). А стиль стал сильно прыгать от мультяшного к гиперреалистичному. Так что промпты с участием реальных людей приходится отдавать GPT-Image, хотя и она далеко не идеальна. Примерно тогда я наткнулся на Хабре на статью «Это вам не шутки: как я пыталась отучить LLM петросянить». Тогда пазл и сложился окончательно: если LLM еще как-то может определить наличие сарказма в готовом материале (вычислив его по паттернам саркастических материалов, на которых обучалась), то пройти этот путь в обратном направлении – уже нет. Поэтому научить нейронку шутить на автомате – задача практически невыполнимая. Как я в итоге вышел из ситуации:для креатива подключил человеческий мозг, оставив за LLM лишь додумывание деталей и техническую работу. На практике это означает, что кроме исходного шаблона я каждый раз дописываю руками в 1-2 предложения общую идею картинки. К примеру, у нас есть новость о том, что Luma Labs открывает доступ по API к модели Uni-1.1. Как это описать словами? Ну, предположим: «робот-художник, к которому по USB-кабелю можно подключить смартфон». Создаем промпт, по промпту создаем картинку:

Не идеально, и в первом варианте на переднем плане была еще одна рука с телефоном Или новость про новую голосовую модель Thinking Machines Lab от Миры Мурати. Пусть будет «в стиле кадров из фильмов про шпионов и спецслужбы времен Холодной войны. Робот сидит на прослушке в наушниках и делает записи в журнале»:

Издержки человеческого интеллекта - ИИ в основном ассоциируется с роботам Важно, что LLM получает не только одно это предложение с сюжетом картинки, но и весь исходный текст. Вся фактура в итоге учитывается в деталях картинки. Например, мне важно, чтобы в картинке был один цветовой акцент – DeepSeek прописывает, в чем именно он должен выражаться. Но вообще, это все очень далеко от идеала. Во-первых, не всегда есть идеи, а во-вторых, далеко не всегда нейронка способна эту идею изобразить корректно. Но в целом процент иллюстраций, которые можно принять с первого раза, достаточно большой. Точно выше, чем если творчеством занимается только ИИ. Остается лишь надеяться, что следующие версии LLM смогут в реверс-инжиниринг человеческого юмора, и нам не придется выдумывать все эти костыли.-Источник
|