Reinforcement Learning in Game Industry—Review, Prospectsand Challenges (2023, MDPI applied sciences)

Notice

Recent Posts

Recent Comments

Link

깃허브

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

Software Hyena::

Reinforcement Learning in Game Industry—Review, Prospectsand Challenges (2023, MDPI applied sciences) 본문

Journal Review

Reinforcement Learning in Game Industry—Review, Prospectsand Challenges (2023, MDPI applied sciences)

bluehyena 2023. 6. 21. 20:00

요약

panorama of RL
DL과 RL을 키워드로한 연구들 (ATARI, Chess, Go 등) 분석
public data, framework 등을 찾음

정리

Game 환경 (game world), action(game controls) evaluation criteria(game score) 등에 RL이 사용됨
초반에는 ATARI 2600 game들이 이후엔 DOTA2, Starcraft, Chess, Go 등에 적용되었고 DQN type의 알고리즘이 다른 고전적인 RL algorithm 보다 동작을 잘 했다.
Background : MDP, RL, Policy, State Evaluation, Energy Evaluation, Bellman Equations, Best Policy, Policy Evaluation and Policy Imporvement 은 생략
Temporal Difference Learning
- DP와 Monte Carlo simulation의 결합
- reward prediction 을 agent 가 이미 배운 것에서 함 (DP처럼)
- agent 환경에 대한 substantial 한 knowledge는 필요없고 interaction의 sequence만 알면된다 (MC simulation 처럼)
- 위의 장점들 때문에 많이 채택되는 알고리즘이다.
- minimun한 computing expense, 오직 한 방정식만 풀면된다.
- 0 < lr < 1 (learning rate)
- r_t+1 + gamma V(S_t+1) : target of temporal difference
- r_t+1 + gammaV(S_t+1) V(St) : loss of temporal difference
Q-Learning
- 가장 유명한 TD algorithm
- out of policy algorithm이라 policy가 evaluated 와 updated된 policy와 일치할 필요없다.
- best function인 Q*를 찾음, gamma max Q(S_t+1, a) 는 State S_t+1 에서 최고의 action을 의미
- 메모리가 많이 필요함, state가 크면 사용하기 힘듬
Publication Analysis and Trend
- 여러 출판물들을 분석
- Genetic Programming (GP) 가 ALE, ViZDoom, StarCraft, Dota2에서 좋은 성능을 보임 과거 RL method들이 큰 memory와 계산복잡도를 요구하여서 떠오르는 방식.
- DL 분야는 이 한계들을 multidimensional data의 scalability를 조절할 수 있어서 극복
- 관련 키워드로 publication 된 수 (per year)

Trend는 ATARI 게임, Chess, multiplayer MOBA, 전략게임 등에 사용한다.

각 게임에서 RL component 의 역할을 분석
Deep Q-Network in ATARI
- 2015의 published, combined DNN with class RL method
- 모델은 4차원의 84x84 이미지를 인풋으로 받고 인풋에는 luminance channel 정보를 포함하여 game의 현재 프레임 이미지가 들어간다. input은 32개 8x8 필터의 컨볼루션 레이어를 따라들어간다. 마지막 은 FCNN으로 4-18개의 valid한 action으로 single output을 낸다.

replay 매커니즘을 사용. energy value function을 direction of TD goal로 변환한 것 이 핵심 아이디어.
이 뉴럴네트워크 구조는 Q(s, a|theta_i) energy의 value function을 구하는데 사용됨

Double Q-learning
- RL의 혁신적인 논문 significant 한 변화를 가져왔다고 함.

- Q learning 은 stochastic environments에서 잘 동작하지 못했음. 그래서 두개의 Q-value function을 도입한것이 double q learning. Qa, Qb.

Prioritized Experience Replay
- DQN은 memory에서 샘플들을 뽑는다. 이 샘플을 뽑는 concept을 발전시킨 방식이 PER이다.
- Prioritized Experience Replay(PER)는 딥러닝 기반 강화학습(Reinforcement Learning)에서 사용되는 알고리즘 중 하나입니다. PER은 기본적인 강화학습 알고리즘 중 하나인 Experience Replay의 개선된 버전이다. Experience Replay는 에이전트가 이전에 경험한 샘플들을 저장하고, 이를 재사용하여 학습하는 방식으로 이전에 학습된 데이터를 재사용함으로서 데이터의 효율성을 높이고, 학습의 안정성을 높인다.
- 하지만, Experience Replay는 샘플의 중요도에 대한 정보를 고려하지 않음. 이러한 문제를 해결하기 위해 개발된 것이 Prioritized Experience Replay입니다.
- PER은 중요한 샘플에 대한 확률을 높이고, 그에 따라 중요하지 않은 샘플에 대한 학습을 줄이는 방식을 사용합니다. 이를 위해, 샘플의 중요도를 계산하기 위한 우선순위 함수를 사용한다. 보통은 TD-에러(Temporal Difference error)를 사용하여 중요도를 계산함.
- 학습의 효율성과 안정성을 높일 수 있습니다. 하지만, 적절한 우선순위 함수를 사용해야 하며, 계산 비용이 높아질 수 있으므로 상황에 따라 사용 여부를 결정해야 함
Dueling Networks
- 모든 가능한 action 에 대해서 항상 모든 value를 계산할 필요가 없다는 아이디어에서 출발
- Dueling Networks는 state-value와 action-value를 분리하여 예측하는 방식이다.
- state-value : 에이전트가 특정 상태에서 받을 것으로 예상되는 보상의 합계
- action-value : 에이전트가 특정 상태에서 특정 행동을 했을 때 받을 것으로 예상되는 보상의 합계
- Dueling Networks에서는 상태-가치와 행동-가치를 분리하여 독립적으로 학습할 수 있도록 네트워크를 구성 → 네트워크의 출력층을 두 개의 서브층으로 나눔 → 각 행동의 가치를 예측하는 것으로 문제를 단순화

Deep Mind가 Atari 게임은 거의 최강자임..
Microsoft
- 얘네도 뭔 팩맨게임 999,990 point 얻어서 한번 영광을 얻었다고 함
AlphaGo
- 앞에는 이세돌 얘기 밖에없음
- MCTS (Monte Carlo Tree Search를 사용함)
- AlphaGo Zero는 power consumption 도 낮춤
Dota2
- OpenAI Five라는 모델이 챔피언을 이김
- PPO 알고리즘, LSTM
AlphaStar in StarCraft II
- significant challenge for AI research teams.
- 이 모델이 Grzegorz Komincz, one of the best StarCraft II players 이김
- 트랜스포머 기반
Other Recent Notable Approaches
- LeDeepChef → text–based games
- ReBeL → self–play framework that leverages reinforcement learning and search to tackle imperfect–information games.
- Tencent Solo → 1:1 MOBA 게임에서 사용
벤치마크
- Q–learning and a DNN in ATARI

이거는 Dueling architecture 에서

Disccusion
- This raises an important question on whether the field of DRL as a whole is progressing toward general intelligence. 즉 다들 하나의 field에 특화된 AI들이라 General하게 다 잘하는 AI의 중요성과 의문이 늘어남.
- simulation cannot perfectly replicate complicated real–world settings. 시뮬레이션과 현실은 다름을 강조

'Journal Review' 카테고리의 다른 글

Adversarial Reinforcement Learning for Procedural Content Generation (2021, IEEE CoG) (0)	2023.06.21
PCGRL: Procedural Content Generation via Reinforcement Learning (2020, AAAI) (0)	2023.06.21
Deep learning for procedural content generation (2021, Neural Computing and Applications) (0)	2023.06.21
Measuring the level of difficulty in single player video games (0)	2023.06.21
Measuring Difficulty in Platform Videogames (0)	2023.06.21

'Journal Review' Related Articles

Comments

Software Hyena::

Reinforcement Learning in Game Industry—Review, Prospectsand Challenges (2023, MDPI applied sciences) 본문

Reinforcement Learning in Game Industry—Review, Prospectsand Challenges (2023, MDPI applied sciences)

'Journal Review' 카테고리의 다른 글

티스토리툴바