확률적 보상과 유효성을 갖는 Sleeping Bandits의 다수의 전략을 융합하는 기법

2017 
본 논문에서는 확률적 보상과 유효성을 갖고, 매 시간 유효한 arm들의 집합이 변하는 sleeping bandit 문제를 해결하는 다수의 전략들의 집합 Φ가 주어졌을 때, 이들을 융합하는 문제를 고려하고, 이 문제를 해결하기 위한 융합 알고리즘 sleepComb(Φ)를 제안한다. 제안된 알고리즘인 sleepComb(Φ)는 확률적(stochastic) multi-armed bandit 문제를 해결하는 매개변수 기반 휴리스틱으로 잘 알려진 ϵ t -greedy의 확률적 스위칭 기법을 바탕으로 매 시간 적절한 전략을 선택하는 알고리즘이다. 시퀀스 {ϵ t }와 전략들에 대한 적절한 조건이 주어졌을 때, 알고리즘 sleepComb(Φ)는 sleeping bandit 문제에 대해 적절히 정의된 “best” 전략으로 수렴한다. 실험을 통해 이 알고리즘이 “best” 전략으로 수렴한다는 사실을 확인하고, 기존의 다른 융합 알고리즘보다 “best” 전략으로 더 빠르게 수렴함과 “best” 전략을 선택하는 비율이 더 높음을 보인다.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []