Apprentissage de politiques efficaces avec XCSF et CEPS

2011 
Nous proposons dans cette contribution une methode qui permet d'obtenir une politique efficace dans un cadre ou l'etat et l'action sont continus. Le systeme controle est un bras a deux degres de liberte actionne par six muscles. Nous apprenons par demonstration une politique parametrique avec le systeme de classeurs xcsf a partir de trajectoires quasi-optimales et nous etudions la capacite d'xcsf a generaliser ce qu'il a appris le long de ces trajectoires sur l'ensemble de l'espace atteignable. De plus, nous montrons qu'une methode d'optimisation stochastique appelee Cross-Entropy Policy Search permet d'ameliorer encore la performance du controleur parametrique.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []