확률적 보상과 유효성을 갖는 Sleeping Bandits의 다수의 전략을 융합하는 기법

최상희,장형수

확률적 보상과 유효성을 갖는 Sleeping Bandits의 다수의 전략을 융합하는 기법

2017

본 논문에서는 확률적 보상과 유효성을 갖고, 매 시간 유효한 arm들의 집합이 변하는 sleeping bandit 문제를 해결하는 다수의 전략들의 집합 Φ가 주어졌을 때, 이들을 융합하는 문제를 고려하고, 이 문제를 해결하기 위한 융합 알고리즘 sleepComb(Φ)를 제안한다. 제안된 알고리즘인 sleepComb(Φ)는 확률적(stochastic) multi-armed bandit 문제를 해결하는 매개변수 기반 휴리스틱으로 잘 알려진 ϵ t -greedy의 확률적 스위칭 기법을 바탕으로 매 시간 적절한 전략을 선택하는 알고리즘이다. 시퀀스 {ϵ t }와 전략들에 대한 적절한 조건이 주어졌을 때, 알고리즘 sleepComb(Φ)는 sleeping bandit 문제에 대해 적절히 정의된 “best” 전략으로 수렴한다. 실험을 통해 이 알고리즘이 “best” 전략으로 수렴한다는 사실을 확인하고, 기존의 다른 융합 알고리즘보다 “best” 전략으로 더 빠르게 수렴함과 “best” 전략을 선택하는 비율이 더 높음을 보인다.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations