基于蒙特卡洛 Q 值函数的多智能体决策方法

2020 
多智能体决策问题是人工智能领域的研究热点.与单智能体决策问题相比, 多智能体决策的策略搜索空间更大.分布式局部感知马尔可夫决策过程(Dec-POMDPs)建立了不确定环境下多智能体决策问题的通用模型, 自提出以来受到很大关注, 但是求解Dec-POMDPs问题计算复杂度高, 内存占用大.基于此, 提出一种新的Q值函数表示---蒙特卡洛Q值函数(QMC), 并从理论上证明QMC是最优Q值函数Q*的上界, 能够保证启发式搜索到最优解; 运用自适应抽样方法, 平衡收敛准确性和求解时间的关系; 结合启发式搜索的精确性和蒙特卡洛方法随机抽样的一般性, 提出一种基于QMC的蒙特卡洛聚类/扩展算法(CEMC), CEMC整合了Q值函数求解和策略搜索过程, 避免保存所有值函数, 只按需求解.实验结果表明, CEMC在时间和内存占用上超过目前性能最好的使用紧凑Q值函数的启发式方法.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []