일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 통계
- 그리디
- Game Data Analysis
- 7569번
- 구현
- classification
- BFS
- Anti Cheat
- 중앙갑
- Deeplearning
- 백준
- Python
- 자료구조
- AA test
- 큐
- cs231n
- ML
- Machine learning
- 정렬
- 스택
- anomaly detection
- Stack
- 알고리즘
- DP
- Journal Review
- datascience
- 딥러닝
- c++
- p-value
- Queue
Archives
- Today
- Total
Software Hyena::
Reinforcement Learning in Game Industry—Review, Prospectsand Challenges (2023, MDPI applied sciences) 본문
Journal Review
Reinforcement Learning in Game Industry—Review, Prospectsand Challenges (2023, MDPI applied sciences)
bluehyena 2023. 6. 21. 20:00반응형
요약
- panorama of RL
- DL과 RL을 키워드로한 연구들 (ATARI, Chess, Go 등) 분석
- public data, framework 등을 찾음
정리
- Game 환경 (game world), action(game controls) evaluation criteria(game score) 등에 RL이 사용됨
- 초반에는 ATARI 2600 game들이 이후엔 DOTA2, Starcraft, Chess, Go 등에 적용되었고 DQN type의 알고리즘이 다른 고전적인 RL algorithm 보다 동작을 잘 했다.
- Background : MDP, RL, Policy, State Evaluation, Energy Evaluation, Bellman Equations, Best Policy, Policy Evaluation and Policy Imporvement 은 생략
- Temporal Difference Learning
- DP와 Monte Carlo simulation의 결합
- reward prediction 을 agent 가 이미 배운 것에서 함 (DP처럼)
- agent 환경에 대한 substantial 한 knowledge는 필요없고 interaction의 sequence만 알면된다 (MC simulation 처럼)
- 위의 장점들 때문에 많이 채택되는 알고리즘이다.
- minimun한 computing expense, 오직 한 방정식만 풀면된다.
- 0 < lr < 1 (learning rate)
- r_t+1 + gamma V(S_t+1) : target of temporal difference
- r_t+1 + gammaV(S_t+1) V(St) : loss of temporal difference
- Q-Learning
- 가장 유명한 TD algorithm
- out of policy algorithm이라 policy가 evaluated 와 updated된 policy와 일치할 필요없다.
- best function인 Q*를 찾음, gamma max Q(S_t+1, a) 는 State S_t+1 에서 최고의 action을 의미
- 메모리가 많이 필요함, state가 크면 사용하기 힘듬
- Publication Analysis and Trend
- 여러 출판물들을 분석
- Genetic Programming (GP) 가 ALE, ViZDoom, StarCraft, Dota2에서 좋은 성능을 보임 과거 RL method들이 큰 memory와 계산복잡도를 요구하여서 떠오르는 방식.
- DL 분야는 이 한계들을 multidimensional data의 scalability를 조절할 수 있어서 극복
- 관련 키워드로 publication 된 수 (per year)
- Trend는 ATARI 게임, Chess, multiplayer MOBA, 전략게임 등에 사용한다.

- 각 게임에서 RL component 의 역할을 분석
- Deep Q-Network in ATARI
- 2015의 published, combined DNN with class RL method
- 모델은 4차원의 84x84 이미지를 인풋으로 받고 인풋에는 luminance channel 정보를 포함하여 game의 현재 프레임 이미지가 들어간다. input은 32개 8x8 필터의 컨볼루션 레이어를 따라들어간다. 마지막 은 FCNN으로 4-18개의 valid한 action으로 single output을 낸다.

- replay 매커니즘을 사용. energy value function을 direction of TD goal로 변환한 것 이 핵심 아이디어.
- 이 뉴럴네트워크 구조는 Q(s, a|theta_i) energy의 value function을 구하는데 사용됨
- Double Q-learning
- RL의 혁신적인 논문 significant 한 변화를 가져왔다고 함.

- Q learning 은 stochastic environments에서 잘 동작하지 못했음. 그래서 두개의 Q-value function을 도입한것이 double q learning. Qa, Qb.
- Prioritized Experience Replay
- DQN은 memory에서 샘플들을 뽑는다. 이 샘플을 뽑는 concept을 발전시킨 방식이 PER이다.
- Prioritized Experience Replay(PER)는 딥러닝 기반 강화학습(Reinforcement Learning)에서 사용되는 알고리즘 중 하나입니다. PER은 기본적인 강화학습 알고리즘 중 하나인 Experience Replay의 개선된 버전이다. Experience Replay는 에이전트가 이전에 경험한 샘플들을 저장하고, 이를 재사용하여 학습하는 방식으로 이전에 학습된 데이터를 재사용함으로서 데이터의 효율성을 높이고, 학습의 안정성을 높인다.
- 하지만, Experience Replay는 샘플의 중요도에 대한 정보를 고려하지 않음. 이러한 문제를 해결하기 위해 개발된 것이 Prioritized Experience Replay입니다.
- PER은 중요한 샘플에 대한 확률을 높이고, 그에 따라 중요하지 않은 샘플에 대한 학습을 줄이는 방식을 사용합니다. 이를 위해, 샘플의 중요도를 계산하기 위한 우선순위 함수를 사용한다. 보통은 TD-에러(Temporal Difference error)를 사용하여 중요도를 계산함.
- 학습의 효율성과 안정성을 높일 수 있습니다. 하지만, 적절한 우선순위 함수를 사용해야 하며, 계산 비용이 높아질 수 있으므로 상황에 따라 사용 여부를 결정해야 함
- Dueling Networks
- 모든 가능한 action 에 대해서 항상 모든 value를 계산할 필요가 없다는 아이디어에서 출발
- Dueling Networks는 state-value와 action-value를 분리하여 예측하는 방식이다.
- state-value : 에이전트가 특정 상태에서 받을 것으로 예상되는 보상의 합계
- action-value : 에이전트가 특정 상태에서 특정 행동을 했을 때 받을 것으로 예상되는 보상의 합계
- Dueling Networks에서는 상태-가치와 행동-가치를 분리하여 독립적으로 학습할 수 있도록 네트워크를 구성 → 네트워크의 출력층을 두 개의 서브층으로 나눔 → 각 행동의 가치를 예측하는 것으로 문제를 단순화

- Deep Mind가 Atari 게임은 거의 최강자임..
- Microsoft
- 얘네도 뭔 팩맨게임 999,990 point 얻어서 한번 영광을 얻었다고 함
- AlphaGo
- 앞에는 이세돌 얘기 밖에없음
- MCTS (Monte Carlo Tree Search를 사용함)
- AlphaGo Zero는 power consumption 도 낮춤
- Dota2
- OpenAI Five라는 모델이 챔피언을 이김
- PPO 알고리즘, LSTM
- AlphaStar in StarCraft II
- significant challenge for AI research teams.
- 이 모델이 Grzegorz Komincz, one of the best StarCraft II players 이김
- 트랜스포머 기반
- Other Recent Notable Approaches
- LeDeepChef → text–based games
- ReBeL → self–play framework that leverages reinforcement learning and search to tackle imperfect–information games.
- Tencent Solo → 1:1 MOBA 게임에서 사용
- 벤치마크
- Q–learning and a DNN in ATARI

이거는 Dueling architecture 에서

- Disccusion
- This raises an important question on whether the field of DRL as a whole is progressing toward general intelligence. 즉 다들 하나의 field에 특화된 AI들이라 General하게 다 잘하는 AI의 중요성과 의문이 늘어남.
- simulation cannot perfectly replicate complicated real–world settings. 시뮬레이션과 현실은 다름을 강조
반응형
'Journal Review' 카테고리의 다른 글
Comments