Исследовать
- Опубликовано
- Авторы
Жюльен Перолат, Барт де Вилдер, Даниэль Хенн, Юджин Тарассовой, Флориан Струб и Карл Туилс
DeepNash учится играть в Stratego с нуля, объединив теорию игр и Deep RL без модели Deep RL
Системы игрового искусственного интеллекта (ИИ) продвинулись к новой границе. Stratego, классическая настольная игра, которая более сложна, чем шахматы и Go, и мастерская, чем покер, теперь освоится. Опубликовано в науке, мы представляем ДипнашАгент ИИ, который изучил игру с нуля до уровня эксперта, играя против себя.
DeepNash использует новый подход, основанный на теории игр и безмерном обучении глубоким подкреплением. Его стиль игры сходится к равновесию Нэша, что означает, что его игра очень трудно для противника. На самом деле, что DeepNash достигла всего три лучших рейтинга среди человеческих экспертов на крупнейшей в мире платформе Stratego, Gravon.
Исторически настольные игры были мерой прогресса в области ИИ, что позволило нам изучить, как люди и машины разрабатывают и выполняют стратегии в контролируемой среде. В отличие от шахмат и Go, Stratego – это игра несовершенной информации: игроки не могут напрямую наблюдать за идентичностями произведений своего противника.
Эта сложность означала, что другие системы Stratego на основе искусственного интеллекта изо всех сил пытались выйти за пределы уровня любителя. Это также означает, что очень успешная техника искусственного интеллекта, называемая «Поиск дерева игры», ранее использованная для освоения многих игр идеальной информации, недостаточно масштабируется для Stratego. По этой причине Дипнаш вообще выходит далеко за рамки поиска дерева игры.
Ценность мастеринга Stratego выходит за рамки игр. В поисках нашей миссии по решению разведки по продвижению науки и пользы человечеством нам необходимо создать передовые системы ИИ, которые могут работать в сложных, реальных ситуациях с ограниченной информацией других агентов и людей. Наша статья показывает, как DeepNash может быть применен в ситуациях неопределенности, и успешно сбалансировать результаты, чтобы помочь решить сложные проблемы.
Знакомство с стратего
Stratego-это пошаговая игра, захватывающая игра. Это игра блефов и тактики, сбора информации и тонкого маневрирования. И это игра с нулевой суммой, поэтому любая выгода от одного игрока представляет собой потерю той же величины для своего противника.
Stratego сложна для ИИ, отчасти потому, что это игра несовершенной информации. Оба игрока начинают с организации своих 40 игровых произведений в любой стартовой формировании, которые им нравятся, изначально скрытые друг от друга, когда начинается игра. Поскольку оба игрока не имеют доступа к одинаковым знаниям, им необходимо сбалансировать все возможные результаты при принятии решения – обеспечивая сложный эталон для изучения стратегических взаимодействий. Типы частей и их рейтинги показаны ниже.
Левый: Пьесы рейтинги. В битвах выигрывают более высокопоставленные произведения, за исключением того, что 10 (маршал) проигрывает при атаке шпиона, а бомбы всегда выигрывают, за исключением случаев, когда он захвачен шахтером.
Середина: Возможное начальное образование. Обратите внимание, как флаг безопасно спрятан сзади, окружен защитными бомбами. Две бледно -голубые области являются «озерами» и никогда не вводятся.
Верно: Игра в игре, показывающая «Шпион Блю», захватывая 10.
Информация тяжело выиграна в Stratego. Личность произведения противника обычно раскрывается только тогда, когда она встречается с другим игроком на поле битвы. Это резко контрастирует с играми идеальной информации, такой как шахматы или GO, в которых расположение и идентичность каждого произведения известны обоим игрокам.
Подходы машинного обучения, которые так хорошо работают в идеальных информационных играх, таких как Alphazero’s DeepMind, нелегко перенести в Stratego. Необходимость принимать решения с несовершенной информацией и потенциал для блеза, делает стратегию более похожим на техасский покер и требует человеческой способности, когда-то отмечаемый американским писателем Джеком Лондоном: «Жизнь не всегда является вопросом удержания Хорошие карты, но иногда хорошо играют в плохую руку ».
Однако методы ИИ, которые так хорошо работают в таких играх, как Texas Holdem, не переносят в Stratego, однако из -за огромной длины игры – часто сотни движений, прежде чем игрок победит. Рассуждение в Stratego должно быть сделано в большем количестве последовательных действий без очевидного понимания того, как каждое действие способствует окончательному результату.
Наконец, количество возможных игровых состояний (выраженных как «Сложность дерева игры») не в графике по сравнению с шахматами, покер и покер, что затрудняет решение решать. Это то, что волновало нас в Stratego, и почему он представлял многолетнюю проблему для сообщества ИИ.
Шкала различий между шахматами, покером, GO и Stratego.
В поисках равновесия
DeepNash использует новый подход, основанный на сочетании теории игр и безмолетового обучения глубоким подкреплением. «Без модели» означает, что DeepNash не пытается явно моделировать частное состояние своего оппонента во время игры. В частности, на ранних стадиях игры, когда DeepNash мало знает о частях своего противника, такое моделирование было бы неэффективным, если не невозможным.
А поскольку сложность стратегового дерева игрового дерева настолько обширна, DeepNash не может использовать стойкий подход игр на основе искусственного интеллекта-поиска Monte Carlo Tree. Поиск деревьев был ключевым ингредиентом многих знаковых достижений в ИИ для менее сложных настольных игр и покера.
Вместо этого DeepNash оснащен новой теоретикой игры, теоретичной алгоритмической идеей, которую мы называем регуляризованной NASH Dynamics (R-NAD). Работая в беспрецедентном масштабе, R-NAD направляет учебное поведение DeepNash к тому, что известно как равновесие Нэша (погрузитесь в технические детали в нашей статье).
Играющее поведение, которое приводит к равновесию Нэша, со временем невыполнено. Если человек или машина играли в совершенно невыполненном стратегии, худший показатель победы, который они могли бы достичь, будет 50%, и только если столкнуться с таким же идеальным противником.
В матчах против лучших ботов Stratego, в том числе нескольких победителей чемпионата мира по компьютерным стратего – показатель победы DeepNash превысил 97%и часто составлял на 100%. Против лучших экспертных игроков-людей на платформе Gravon Games, Deecnash достиг 84%, получив все лучшие три рейтинга.
Ожидайте неожиданного
Чтобы достичь этих результатов, DeepNash продемонстрировал некоторое замечательное поведение как во время своего первоначального этапа развертывания, так и на этапе игрового процесса. Чтобы стать трудным для эксплуатации, Дипнаш разработал непредсказуемую стратегию. Это означает, что создание первоначальных развертываний варьировалось, чтобы предотвратить то, что его оппонент определяет шаблоны на серии игр. И на этапе игры DeepNash рандомизирует между кажущимися эквивалентными действиями для предотвращения эксплуатационных тенденций.
Игроки Stratego стремятся быть непредсказуемыми, поэтому есть ценность в скрытой информации. DeepNash демонстрирует, как она ценит информацию довольно поразительными способами. В приведенном ниже примере против человеческого игрока, Deepnash (Blue) пожертвовал, среди прочих, 7 (майор) и 8 (полковник) в начале игры, и в результате смог найти 10 (маршал), маршал), 9 (общий), 8 и два 7.
В этой ранней игровой ситуации Deepnash (Blue) уже обнаружил многие из самых мощных произведений противника, сохраняя при этом свои собственные ключевые произведения в секрете.
Эти усилия оставили Дипнаш в значительном материальном недостатке; Он потерял 7 и 8, в то время как его человеческий противник сохранил все их произведения, занявшие 7 и выше. Тем не менее, имея твердую Intel на высшей латуни своего оппонента, DeepNash оценил свои победные шансы на 70% – и он выиграл.
Искусство блефа
Как и в покере, хороший игрок стратего должен иногда представлять силу, даже когда он слаб. Дипнаш выучил множество такой блефбирующей тактики. В приведенном ниже примере Deednash использует 2 (слабый разведчик, неизвестный его противнику), как если бы он был высокопоставленным произведением, преследуя известный противник. заманить его в засаду от их шпиона. Эта тактика DeepNash, рискуя лишь незначительной частью, преуспевает в вымывании и устранении шпиона своего противника, критической части.
Человеческий игрок (красный) убежден, что неизвестная часть, преследующая их 8, должна быть 10 (примечание: Дипнаш уже потерял только 9).
Посмотрите больше, посмотрите эти четыре видео с полнометражными играми, играющими DeepNash против (анонимных) человеческих экспертов: игра 1, игра 2, игра 3, игра 4.
«
Уровень игры Дипнаш удивил меня. Я никогда не слышал о искусственном игроке Stratego, который приблизился к уровню, необходимому для победы в матче против опытного игрока. Но после того, как я играл против Дипнаша, я не удивил, что топ-3 рейтинг, который он позже достиг на платформе Gravon. Я ожидаю, что это будет очень хорошо, если позволит участвовать в чемпионате мира по человеческому миру.
Винсент де Бур, соавтор бумаги и бывший чемпион мира Stratego
Будущие направления
В то время как мы разработали DeepNash для высоко определенного мира Stratego, наш новый метод R-NAD может быть непосредственно применен к другим двум игровым играм с нулевой суммой как идеальной, так и несовершенной информации. R-NAD имеет потенциал для обобщения намного больше игровых настроек с двумя игроками для решения крупномасштабных проблем реального мира, которые часто характеризуются несовершенной информацией и астрономическими государственными пространствами.
Мы также надеемся, что R-NAD поможет разблокировать новые приложения ИИ в областях, в которых большое количество участников человека или искусственного интеллекта с различными целями, которые могут не иметь информации о намерении других или о том, что происходит в их среде, например, в крупных -Калевая оптимизация управления движением для сокращения времени путешествия водителя и связанных с ними выбросов транспортных средств.
Создавая обобщенную систему ИИ, которая надежна перед лицом неопределенности, мы надеемся, что способности ИИ решать проблемы в нашем непредсказуемом мире.
Узнайте больше о DeepNash, прочитав нашу статью в науке.
Для исследователей, заинтересованных в том, чтобы попробовать R-NAD или работать с нашим недавно предложенным методом, мы открыли наш код с открытым исходным кодом.
Авторы бумаги
Жюльен Перолат, Барт де Вилдер, Даниэль Хеннс, Юджин Тарассовой, Флориан Струб, Винсент де Боер, Пол Мюллер, Джером Т. Коннор, Нил Берч, Томас Энтони, Стивен Макалир, Ромуальд Эли, Сара Х., Чж Ван, Аудунс Груслис, Альсандра, Сара Х. Малишева, Мина Хан, Шерджил Озайр, Финбарр Тимберс, Тоби Полен, Том Экклс, Марк Роуленд, Марк Ланктот, Жан-Баптист Леспиау, Билал Пиот, Шейган Омидшафи, Эдвард Локхарт, Лаурент Сифре, Натхали Боугюрж, Эдвард, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид, Давид Силь. Сингх, Демис Хассабис, Карл Туилс.