Dynamic Planning Networks

Norman Tasfi,Miriam A. M. Capretz

Dynamic Planning Networks

2021

Norman Tasfi
Miriam A. M. Capretz

We introduce Dynamic Planning Networks (DPN), a novel architecture for deep reinforcement learning, that combines model-based and model-free aspects for online planning. Our architecture learns to dynamically construct plans using a learned state-transition model by selecting and traversing between simulated states and actions to maximize information before acting. DPN learns to efficiently form plans by expanding a single action-conditional state transition at a time instead of exhaustively evaluating each action, reducing the number of state-transitions used during planning. We observe emergent planning patterns in our agent, including classical search methods such as breadth-first and depth-first search. DPN shows improved performance over existing baselines across multiple axes.

Keywords:

construct
Artificial intelligence
State (computer science)
Trajectory
Artificial neural network
Reinforcement learning
action
Architecture
Computer science
Traverse

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations