Агенты, которые играют в игры: как MMORPG обучают ИИ кооперации, предательству и дипломатии

Страницы:  1

Ответить
 

Professor Seleznov


pic
Недавно прогремела громкая новость: Google DeepMind будет тестировать ИИ-модели в EVE Online — одной из самых сложных MMO с живой экономикой, корпорациями игроков, дипломатией, войнами и рынками. Лаборатория заключила исследовательское партнерство с Fenris Creations, студией-разработчиком EVE Online, ранее известной как CCP Games. Google также получила миноритарную долю в компании.
Сделка прошла в момент крупной перестройки студии. Fenris Creations вышла из-под контроля Pearl Abyss и стала независимой после соглашения на 120 млн долл. Компания сохранила руководство, команды и текущие проекты, включая EVE Online, EVE Vanguard и EVE Frontier.
DeepMind не будет запускать эксперименты в основном мире EVE Online. Для исследований будет использоваться офлайн-версия игры на локальном сервере. Это позволит тестировать и оценивать модели в изолированной среде.
Зачем ИИ-проектам такие песочницы, чему они будут там обучаться и каким может стать ИИ благодаря такому обучению.
Почему именно EVE Online
pic
Источник
Массовые многопользовательские ролевые онлайн-игры (MMORPG) — это виртуальные миры, где большое количество игроков взаимодействуют одновременно, выстраивая отношения, преследуя общие цели и участвуя в сложном игровом процессе. EVE Online — не просто очередная игра про космос. С 2003 года она работает как единая вселенная, где игроки сами создают большую часть экономики и политики. Они добывают ресурсы, строят корабли, торгуют, воюют, вступают в корпорации, заключают союзы, шпионят, защищают территории и годами нарабатывают репутацию.
Fenris описывает EVE как мир с единой вселенной, экономикой, управляемой игроками, и конкуренцией за власть, богатство и влияние. Для DeepMind такая среда ценна тем, что в ней трудно свести задачу к простой цели победить в матче. Здесь нужно планировать вдолгую, помнить прошлые события и адаптироваться к действиям других игроков.
Fenris указывает три исследовательских направления: долгосрочное планирование, память прошлых событий и непрерывное обучение. Это слабые места многих современных ИИ-агентов. Модель может хорошо отвечать на отдельный запрос, но теряться в длинной цепочке действий, где каждое решение меняет будущие условия.
В EVE такой проблемы не избежать. Купил крупную партию ресурсов — повлиял на цены. Сорвал поставку — подвел корпорацию. Нарушил договор — испортил репутацию. Потерял корабль — потерял деньги, время и, возможно, доверие союзников. Победа в бою может дать политические бонусы, а удачная, казалось бы, сделка — выдать подготовку к будущей операции. Для ИИ это уже не шахматы и не одиночная аркада. Это среда, где агент должен жить среди других участников, учитывать их интересы и понимать цену своих действий.
EVE как песочница для социологов
EVE давно интересует не только игроков и разработчиков. Исследователи рассматривают такие виртуальные миры как удобные социально-экономические лаборатории. В работе PLOS ONE на данных EVE Online авторы изучали, как реальные социальные и экономические условия в странах игроков отражаются на их поведении внутри игры. Они нашли корреляции между внешними условиями и игровыми действиями: торговлей, взаимодействием с другими игроками, политическими и экономическими последствиями решений. До этого исследователи изучали поведение игроков в World of Warcraft (WoW), футуристических мирах игр Destiny и Pardus и даже подтвердили теорию социального баланса, которая перекладывается на реальный мир. А в случае с EVE они сопоставили реальные страны со странами игровыми и поведение людей в реальности и игре.
Исследователи нашли связь. Например, игроки из стран с более высоким уровнем насилия меньше нападали на других игроков, но чаще атаковали неигровых персонажей. Авторы допускают, что виртуальный мир может работать как безопасный способ выплеснуть агрессию.
Еще один вывод связан с экономикой. Игроки из стран с высокой безработицей и слабой валютой чаще вели себя в игре более расчетливо: эффективнее торговали, экономили ресурсы и зарабатывали больше внутриигровых денег — игровую валюту в EVE можно использовать для оплаты подписки.
Главный вывод исследования: поведение игроков в EVE частично отражает социальную и экономическую среду, в которой они живут. Авторы подчеркивают, что речь идет о корреляции, а не о доказанной причинно-следственной связи. Но именно такие данные делают виртуальные миры полезными для социологов, экономистов и разработчиков ИИ: в них можно наблюдать, как реальные нормы, стресс и экономические условия проявляются в цифровом обществе.
Ценность игровых миров — в возможности наблюдать за ними. В реальном обществе многие договоренности скрыты, часть мотивов невозможно точно установить, а последствия решений растянуты на годы. В игре можно гораздо точнее связать действие с контекстом: кто сделал ход и какая у него была мотивация, какими ресурсами он располагал, какая группа получила выгоду, как изменился рынок и что произошло дальше.
Игра дает не только социологам, но и ИИ редкую модель сложного поведения: люди действуют в условиях дефицита, конкуренции, доверия, обмана, иерархий и неформальных правил. Для социолога это цифровая песочница. Для DeepMind — полигон, где можно проверять способности ИИ действовать внутри социальной системы.
В исследовании First Monday EVE описывается как сложная односерверная песочница, где социальный капитал формируется через автономию, доверие, компетентность и чувство принадлежности. Важны не только игровые навыки, но и репутация, наставничество, корпорации, альянсы и последствия риска.
Играя в такую игру, модель должна понимать не только формальные правила, но и негласные нормы. Формально можно обмануть союзника. Социально это может закрыть доступ к корпорациям, каналам снабжения и будущим сделкам. Формально можно атаковать слабую цель, а политически это может втянуть вас в конфликт с крупным альянсом.
Обычный тест с задачами такому не научит. Чат-бот может отвечать убедительно, но это не означает, что он умеет выстраивать длительную стратегию и действовать в ее рамках, внося коррективы на ходу, учитывая новые вводные и последствия своих решений. EVE как раз дает ИИ такую среду.
Другие игровые песочницы для ИИ
pic
Конечно, EVE — не первая игра, куда влез ИИ своими длинными щупальцами. Рассмотрим другие кейсы.
AlphaStar в StarCraft II: учит стратегии, разведке и борьбе с человеком
pic
Источник
ИИ-систему AlphaStar Google DeepMind специально создали для обучения в StarCraft II. Хотя это была не социальная MMO, но тоже среда с высокой степенью неопределенности: игрок не видит всю карту, должен развивать экономику, строить армию, вести разведку, реагировать на действия соперника и менять стратегию в реальном времени.
AlphaStar обучали на человеческих партиях и через многоагентное обучение с подкреплением. В итоге агент достиг уровня Grandmaster и оказался лучше 99,8% активных игроков Battle.net. DeepMind подчеркивала, что StarCraft II выбрали из-за сложности, частичной наблюдаемости, большого пространства для действий и необходимости долгосрочного планирования.
OpenAI Five в Dota 2: командная игра, координация и самообучение
pic
Источник
OpenAI использовала Dota 2 как полигон для тренировки командного поведения. OpenAI Five обучался через масштабное самообучение и в 2019 году победил чемпионов мира Team OG. В работе OpenAI подчеркивалось, что система тренировалась 10 месяцев, а Dota 2 выбрали из-за сложности, необходимости командной координации, непрерывного принятия решений и огромного числа возможных ситуаций.
Но Dota 2 все равно ограничена матчем: есть начало, конец, понятная цель и фиксированные правила победы. EVE устроена иначе. Там нет одного финального экрана Victory. Игроки и корпорации живут в мире годами, а последствия решений могут всплывать спустя месяцы.
Cicero в Diplomacy: переговоры, доверие и скрытые намерения
Diplomacy — настольная стратегия, где победа зависит не столько от механики, сколько от переговоров, временных союзов, доверия и умения считывать намерения других игроков. Играя в эту игру, Cicero приблизился к человеческой социальной игре: договоренностям, сигналам, что тебе можно доверять, и скрытым намерениям. 
В статье Science Cicero описан как первый ИИ-агент, достигший человеческого уровня в Diplomacy. Группа исследователей Fundamental AI Research Diplomacy Team (FAIR) и др. разработала агента, способного играть в полную версию игры на естественном языке и демонстрирующего результаты значительно выше среднего уровня у людей в онлайн-лиге. Cicero объединял языковую модель, планирование и обучение с подкреплением, анализировал намерения игроков по переписке и строил диалоги под свои планы.
Minecraft и Project Malmo: песочница для обучения агентов
pic
Источник
Microsoft Research запустила Project Malmo как платформу для экспериментов с ИИ поверх мира Minecraft. Агент использует глубокое обучение с подкреплением, может видеть мир, действовать в нем, выполнять задания и обучаться в открытой среде. Microsoft описывает Malmo как платформу для фундаментальных исследований ИИ, построенную на базе Minecraft.
Minecraft полезен тем, что в нем есть открытый мир, ресурсы, строительство, навигация и творческие задачи, «бесконечные возможности», как пишет Microsoft. Позже похожее направление развивали исследователи Voyager: это LLM-агент для Minecraft, который сам исследует мир, накапливает навыки и расширяет библиотеку действий без постоянного участия человека.
pic
Voyager строит дом и портал в мире Minecraft. Источник
SIMA и SIMA 2 от DeepMind: агент, который действует в разных 3D-мирах
SIMA — еще один важный проект DeepMind. Это агент для виртуальных 3D-миров, который должен понимать инструкции на естественном языке и выполнять действия в разных играх. В SIMA 2 DeepMind интегрировала Gemini: агент уже не просто выполняет короткие команды, а рассуждает о целях, общается с пользователем и улучшает поведение со временем.
pic
Цикл самосовершенствования SIMA. Источник
Способность SIMA 2 работать в различных игровых средах делает игры полигоном для проверки общего интеллекта, позволяя агентам осваивать навыки, практиковать сложные рассуждения и непрерывно учиться посредством самостоятельной игры. Но разработчики SIMA 2 признают, что агенту пока трудно решать сложные задачи с очень длинным горизонтом планирования. Ему не хватает долгой памяти о взаимодействиях, а точное управление клавиатурой и мышью вместе с надежным пониманием сложных 3D-сцен остаются нерешенными задачами.
Stanford Generative Agents: маленький город с ИИ-жителями
pic
Источник
Исследователи создали среду, похожую на маленький городок в духе The Sims, и поселили туда 25 ИИ-агентов. Они помнили события, строили планы, общались друг с другом и демонстрировали правдоподобное социальное поведение.
pic
Архитектура агента. Источник
Один из известных эпизодов: из простой идеи организовать вечеринку агенты сами распространили приглашения, договорились и пришли в нужное время.
pic
Договоренности агентов. Источник
World of Warcraft и Corrupted Blood: игра как модель массового поведения в эпидемию
В 2005 году в World of Warcraft случайно возникла виртуальная эпидемия Corrupted Blood. Болезнь должна была работать в пределах рейда, но из-за особенностей механики распространилась по городам. Игроки реагировали по-разному: кто-то избегал зараженных зон, кто-то помогал другим, кто-то намеренно разносил болезнь.
Случай заинтересовал эпидемиологов, потому что показал поведение людей в массовом кризисе внутри виртуального мира. The Lancet писал, что такие игровые кейсы помогают изучать распространение инфекций и человеческие реакции на угрозы.
-

Скрытый текст

Игры и виртуальные миры нужны ИИ-разработчикам не ради рекордов в таблице лидеров. Это удобные испытательные стенды, где можно безопасно проверять поведение агента: он видит среду, принимает решения, получает результат, ошибается, учится и снова действует. В реальном мире такие эксперименты дороже, опаснее и хуже контролируются.
Главная ценность песочниц — сложность без физического риска. В игре можно дать агенту задачу, где есть неполная информация, другие участники, долгие последствия, ресурсы, рынок, договоренности и обман. Все это можно записывать в данные: что агент увидел, какое решение принял, как изменилась среда, кто пострадал, кто выиграл и к чему это привело.
Чему ИИ учат такие среды
Действовать не по разовому запросу, а идти к долгосрочной цели. В чат-боте модель отвечает здесь и сейчас. В песочнице агенту нужно удерживать план: добыть ресурс, построить цепочку действий, договориться с участниками, не потратить все сразу и не испортить будущие возможности.
Адаптация к противникам и союзникам. AlphaStar в StarCraft II учился не просто нажимать кнопки быстрее человека. Ему нужно было разведывать карту, строить экономику, выбирать стратегию, менять тактику и реагировать на соперника. DeepMind обучала его через имитационное обучение, самообучение и многоагентную среду с постоянно меняющимися стратегиями.
Координация в группе. В Dota 2 один сильный агент не выигрывает сам по себе: нужно распределять роли, помогать партнерам, выбирать момент атаки, отступать и жертвовать локальной выгодой ради командного результата. Для будущих ИИ-систем это важнее, чем кажется: корпоративные агенты тоже будут работать не в одиночку, а в связке с людьми, сервисами и другими моделями.
Переговоры и чтение намерений. Cicero в игре Diplomacy — это стратегия, где победа зависит от союзов, переговоров и доверия. Агент объединял языковую модель, планирование и обучение с подкреплением, анализировал намерения игроков по переписке и строил диалоги под свои планы.
Память и социальная правдоподобность. В проекте Stanford Generative Agents исследователи поселили 25 ИИ-агентов в интерактивный городок. Агенты помнили события, строили планы, общались, формировали мнения и создавали коллективные сценарии. Архитектура держалась на наблюдениях, памяти, планировании и рефлексии — без этих блоков поведение становилось менее убедительным.
Самостоятельное накопление умений. Microsoft Research сделала Project Malmo на базе Minecraft для фундаментальных исследований ИИ: агент может видеть среду, двигаться, выполнять задания и учиться через взаимодействие. Voyager пошел дальше: LLM-агент в Minecraft сам исследовал мир, копил библиотеку навыков и использовал обратную связь среды для улучшения программ действий.
Понимание человеческого поведения в массовых системах. История Corrupted Blood в World of Warcraft показала, что игровые миры могут неожиданно раскрывать реальные паттерны поведения: панику, любопытство, помощь, саботаж, нарушение карантина.
EVE Online собирает эти слои в одной среде и полезна как цифровое общество с измеримыми событиями. ИИ в такой песочнице может обучаться трем вещам, которые плохо проверяются обычными тестами.
Социальные причины. Агент должен понимать, что действие меняет не только цифры в интерфейсе, но и отношения между участниками. Сорванная поставка — это не просто минус к ресурсу, а удар по доверию. Удачная сделка — не просто прибыль, а возможный сигнал подготовки к войне.
Долгая память. В EVE прошлое имеет значение: кто предавал союзников, кто держал слово, кто контролирует логистику, кто может влиять на рынок. Такой мир заставляет модель связывать текущие решения с историей взаимодействий.
Поведение в обществе с нормами. Формально агент может сделать выгодный ход. Социально этот ход может разрушить доступ к корпорациям, рынкам и будущим союзам. Это важный шаг от ИИ, который оптимизирует ближайшую награду, к ИИ, который учитывает контекст и последствия.
Каким может стать ИИ после такого обучения
Если такие эксперименты сработают, ИИ-агенты станут менее похожи на умные автодополнения и больше — на участников сложных процессов.
Они смогут помнить историю взаимодействий, объяснять свои действия, координироваться с людьми, работать в условиях неполной информации и учитывать социальную цену решений. Это открывает путь к агентам, которые способны вести проект, планировать цепочку задач, договариваться с другими системами и контрагентами, отслеживать риски и не ломать процесс ради краткосрочной выгоды.
Но есть и обратная сторона. Игры с переговорами, рынками и конфликтами учат не только кооперации. Они учат обманывать, манипулировать и слишком агрессивно идти к цели. Именно поэтому такие песочницы важны еще и как безопасный полигон: там можно заранее увидеть нежелательное поведение, изучить его и поставить ограничения до выхода дообученного агента в релиз. В теории. А чему научатся ИИ-агенты на практике и как будут применять свои знания — покажет жизнь.-Источник
 
Loading...
Error