Software Hyena::

Reinforcement Learning in Game Industry—Review, Prospectsand Challenges (2023, MDPI applied sciences) 본문

Journal Review

Reinforcement Learning in Game Industry—Review, Prospectsand Challenges (2023, MDPI applied sciences)

bluehyena 2023. 6. 21. 20:00
반응형

요약

  • panorama of RL
  • DL과 RL을 키워드로한 연구들 (ATARI, Chess, Go 등) 분석
  • public data, framework 등을 찾음

정리

  • Game 환경 (game world), action(game controls) evaluation criteria(game score) 등에 RL이 사용됨
  • 초반에는 ATARI 2600 game들이 이후엔 DOTA2, Starcraft, Chess, Go 등에 적용되었고 DQN type의 알고리즘이 다른 고전적인 RL algorithm 보다 동작을 잘 했다.
  • Background : MDP, RL, Policy, State Evaluation, Energy Evaluation, Bellman Equations, Best Policy, Policy Evaluation and Policy Imporvement 은 생략
  • Temporal Difference Learning
    • DP와 Monte Carlo simulation의 결합
    • reward prediction 을 agent 가 이미 배운 것에서 함 (DP처럼)
    • agent 환경에 대한 substantial 한 knowledge는 필요없고 interaction의 sequence만 알면된다 (MC simulation 처럼)
    • 위의 장점들 때문에 많이 채택되는 알고리즘이다.
    • minimun한 computing expense, 오직 한 방정식만 풀면된다.
    • 0 < lr < 1 (learning rate)
    • r_t+1 + gamma V(S_t+1) : target of temporal difference
    • r_t+1 + gammaV(S_t+1) V(St) : loss of temporal difference
  • Q-Learning
    • 가장 유명한 TD algorithm
    • out of policy algorithm이라 policy가 evaluated 와 updated된 policy와 일치할 필요없다.
    • best function인 Q*를 찾음, gamma max Q(S_t+1, a) 는 State S_t+1 에서 최고의 action을 의미
    • 메모리가 많이 필요함, state가 크면 사용하기 힘듬
  • Publication Analysis and Trend
    • 여러 출판물들을 분석
    • Genetic Programming (GP) 가 ALE, ViZDoom, StarCraft, Dota2에서 좋은 성능을 보임 과거 RL method들이 큰 memory와 계산복잡도를 요구하여서 떠오르는 방식.
    • DL 분야는 이 한계들을 multidimensional data의 scalability를 조절할 수 있어서 극복
    • 관련 키워드로 publication 된 수 (per year)
  • Trend는 ATARI 게임, Chess, multiplayer MOBA, 전략게임 등에 사용한다.

  • 각 게임에서 RL component 의 역할을 분석
  • Deep Q-Network in ATARI
    • 2015의 published, combined DNN with class RL method
    • 모델은 4차원의 84x84 이미지를 인풋으로 받고 인풋에는 luminance channel 정보를 포함하여 game의 현재 프레임 이미지가 들어간다. input은 32개 8x8 필터의 컨볼루션 레이어를 따라들어간다. 마지막 은 FCNN으로 4-18개의 valid한 action으로 single output을 낸다.
     

  • replay 매커니즘을 사용. energy value function을 direction of TD goal로 변환한 것 이 핵심 아이디어.
  • 이 뉴럴네트워크 구조는 Q(s, a|theta_i) energy의 value function을 구하는데 사용됨
  • Double Q-learning
    • RL의 혁신적인 논문 significant 한 변화를 가져왔다고 함.
     

 - Q learning 은 stochastic environments에서 잘 동작하지 못했음. 그래서 두개의 Q-value function을 도입한것이 double q learning. Qa, Qb.

 

  • Prioritized Experience Replay
    • DQN은 memory에서 샘플들을 뽑는다. 이 샘플을 뽑는 concept을 발전시킨 방식이 PER이다.
    • Prioritized Experience Replay(PER)는 딥러닝 기반 강화학습(Reinforcement Learning)에서 사용되는 알고리즘 중 하나입니다. PER은 기본적인 강화학습 알고리즘 중 하나인 Experience Replay의 개선된 버전이다. Experience Replay는 에이전트가 이전에 경험한 샘플들을 저장하고, 이를 재사용하여 학습하는 방식으로 이전에 학습된 데이터를 재사용함으로서 데이터의 효율성을 높이고, 학습의 안정성을 높인다.
    • 하지만, Experience Replay는 샘플의 중요도에 대한 정보를 고려하지 않음. 이러한 문제를 해결하기 위해 개발된 것이 Prioritized Experience Replay입니다.
    • PER은 중요한 샘플에 대한 확률을 높이고, 그에 따라 중요하지 않은 샘플에 대한 학습을 줄이는 방식을 사용합니다. 이를 위해, 샘플의 중요도를 계산하기 위한 우선순위 함수를 사용한다. 보통은 TD-에러(Temporal Difference error)를 사용하여 중요도를 계산함.
    • 학습의 효율성과 안정성을 높일 수 있습니다. 하지만, 적절한 우선순위 함수를 사용해야 하며, 계산 비용이 높아질 수 있으므로 상황에 따라 사용 여부를 결정해야 함
  • Dueling Networks
    • 모든 가능한 action 에 대해서 항상 모든 value를 계산할 필요가 없다는 아이디어에서 출발
    • Dueling Networks는 state-value와 action-value를 분리하여 예측하는 방식이다.
    • state-value : 에이전트가 특정 상태에서 받을 것으로 예상되는 보상의 합계
    • action-value : 에이전트가 특정 상태에서 특정 행동을 했을 때 받을 것으로 예상되는 보상의 합계
    • Dueling Networks에서는 상태-가치와 행동-가치를 분리하여 독립적으로 학습할 수 있도록 네트워크를 구성 → 네트워크의 출력층을 두 개의 서브층으로 나눔 → 각 행동의 가치를 예측하는 것으로 문제를 단순화
     

  • Deep Mind가 Atari 게임은 거의 최강자임..
  • Microsoft
    • 얘네도 뭔 팩맨게임 999,990 point 얻어서 한번 영광을 얻었다고 함
  • AlphaGo
    • 앞에는 이세돌 얘기 밖에없음
    • MCTS (Monte Carlo Tree Search를 사용함)
    • AlphaGo Zero는 power consumption 도 낮춤
  • Dota2
    • OpenAI Five라는 모델이 챔피언을 이김
    • PPO 알고리즘, LSTM
  • AlphaStar in StarCraft II
    • significant challenge for AI research teams.
    • 이 모델이 Grzegorz Komincz, one of the best StarCraft II players 이김
    • 트랜스포머 기반
  • Other Recent Notable Approaches
    • LeDeepChef → text–based games
    • ReBeL → self–play framework that leverages reinforcement learning and search to tackle imperfect–information games.
    • Tencent Solo → 1:1 MOBA 게임에서 사용
  • 벤치마크
    • Q–learning and a DNN in ATARI
     

이거는 Dueling architecture 에서

  • Disccusion
    • This raises an important question on whether the field of DRL as a whole is progressing toward general intelligence. 즉 다들 하나의 field에 특화된 AI들이라 General하게 다 잘하는 AI의 중요성과 의문이 늘어남.
    • simulation cannot perfectly replicate complicated real–world settings. 시뮬레이션과 현실은 다름을 강조
반응형
Comments