Apprentissage de routines pour la prise de décision séquentielle

Sandra Castellanos-Paez

Apprentissage de routines pour la prise de décision séquentielle

2019

Sandra Castellanos-Paez

Intuitivement, un systeme capable d'exploiter son experience devrait etre capable d'atteindre de meilleures performances. Une facon de tirer parti des experiences passees est d'apprendre des macros (c.-a-d. des routines), elle peuvent etre ensuite utilises pour ameliorer la performance du processus de resolution de nouveaux problemes. Le defi de la planification automatique est de developper des techniques de planification capables d'explorer efficacement l'espace de recherche qui croit exponentiellement. L'apprentissage de macros a partir de connaissances precedemment acquises s'avere benefique pour l'amelioration de la performance d'un planificateur. Cette these contribue principalement au domaine de la planification automatique, et plus specifiquement a l'apprentissage de macros pour la planification classique. Nous nous sommes concentres sur le developpement d'un modele d'apprentissage independant du domaine qui identifie des sequences d'actions (meme non adjacentes) a partir de plans solutions connus. Ce dernier selectionne les routines les plus utiles (c'est-a-dire les macros), grâce a une evaluation a priori, pour ameliorer le domaine de planification. Tout d'abord, nous avons etudie la possibilite d'utiliser la fouille de motifs sequentiels pour extraire des sequences frequentes d'actions a partir de plans de solutions connus, et le lien entre la frequence d'une macro et son utilite. Nous avons decouvert que la frequence seule peut ne pas fournir une selection coherente de macro-actions utiles (c.-a-d. des sequences d'actions avec des objets constants). Ensuite, nous avons discute du probleme de l'apprentissage des macro-operateurs (c'est-a-dire des sequences d'actions avec des objets variables) en utilisant des algorithmes classiques de fouille de motifs dans la planification. Malgre les efforts, nous nous sommes trouves dans une impasse dans le processus de selection car les structures de filtrage de la fouille de motifs ne sont pas adaptees a la planification. Finalement, nous avons propose une nouvelle approche appelee METEOR, qui permet de trouver les sequences frequentes d'operateurs d'un ensemble de plans sans perte d'information sur leurs caracteristiques. Cette approche a ete concue pour l'extraction des macro-operateurs a partir de plans solutions connus, et pour la selection d'un ensemble optimal de macro-operateurs maximisant le gain en nœuds. Il s'est avere efficace pour extraire avec succes des macro-operateurs de differentes longueurs pour quatre domaines de reference differents. De plus, grâce a la phase de selection l'approche a montre un impact positif sur le temps de recherche sans reduire drastiquement la qualite des plans.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations