Contribution a la construction automatique des fonctions de renforcement

1999 
Nous proposons une methode pour la construction automatique des fonctions de renforcement (fr) impliquant deux etapes. La premiere etape met au format expression generale des fr la description en langue naturelle de la mesure de performance. La seconde etape ajuste les divers parametres de l'expression creee afin d'obtenir une definition optimale de la fr, en terme de vitesse de convergence de l'apprentissage durant la phase d'exploration. Les contraintes sur lesquelles reposent la nouvelle expression de la fr sont etudiees : position et velocite sont deux variables d'etat importantes. Utilisant une expression pour les fr specifique, mais representative, nous etudions la relation entre les renforcements recus et les parametres de l'expression. Dans le cas d'une relation lineaire, nous proposons une methode analytique pour obtenir les valeurs des parametres de la fr (aucune experimentation n'est necessaire). Pour une relation non lineaire, mais monotone, nous proposons le update parameter algorithm (upa) et montrons que cet algorithme est capable d'ajuster avec efficacite les proportions de renforcements positif et negatif recus. Nous etudions aussi la faisabilite et les consequences d'une adaption de la fr durant la phase d'exploitation de l'apprentissage (et non plus uniquement d'exploration) de maniere a ameliorer la vitesse de convergence du systeme. Dynamic upa permet de maintenir des ratios predefinis de renforcements positif et negatif durant l'ensemble du processus d'apprentissage. Nous sommes ainsi capable de resoudre le dilemme exploration-exploitation, une condition necessaire a un apprentissage par renforcement efficace. Nous illustrons les performances des methodes proposees au travers de plusieurs experimentations impliquant divers robots (bras et mobile). Finalement, nous mettons en perspective les conclusions majeures de ce travail et decrivons certaines des orientations de recherches possibles dans l'axe de nos efforts.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []