Apprentissage par renforcement profond pour la classification précoce de séquences temporelles

2019 
Dans cet article, nous traitons du probleme de classification precoce de sequences temporelles. Il s’agit d’un probleme de prise de decision sequentielle ou l’objectif est de minimiser le temps de prediction. Nous modelisons le probleme par un Processus de Decision Markovien Partiellement Observable (POMDP). Nous proposons d’utiliser une methode d’apprentissage par renforcement afin d’entrainer un agent a decider entre les actions de classer la sequence incomplete ou d’attendre une observation supplementaire. Nous utilisons un algorithme existant qui approxime la politique de l’agent par un reseau de neurone profond. Nous avons adapte l’algorithme afin de pouvoir faire un apprentissage soit sur une base d’entrainement fixe, soit en ligne avec l’acquisition dynamique de nouvelles donnees d’entrainement. Nous proposons aussi un echantillonnage et un stockage hierarichise par action et par classe ainsi qu’une initialisation specifique des episodes d’entrainement afin de pallier le desequilibre de la memoire de l’agent.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []