U-Clustering:基于效用聚类的激励学习算法

2005 
提出了一个新的效用聚类激励学习算法U—Clustering。该算法完全不用像U—Tree算法那样进行边缘节点的生成和测试,它首先根据实例链的观测动作值对实例进行聚类,然后对每个聚类进行特征选择,最后再进行特征压缩.经过压缩后的新特征就成为新的状态空间树节点。通过对New York Driving的仿真和算法的实验分析,表明U-Clustering算法对解决大型部分可观测环境问题是比较有效的算法。
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []