Safe Approximate Dynamic Programming via Kernelized Lipschitz Estimation.

Ankush Chakrabarty,Devesh K. Jha,Gregery T. Buzzard,Yebin Wang,Kyriakos G. Vamvoudakis

Safe Approximate Dynamic Programming via Kernelized Lipschitz Estimation.

2020

Ankush Chakrabarty
Devesh K. Jha
Gregery T. Buzzard
Yebin Wang
Kyriakos G. Vamvoudakis

We develop a method for obtaining safe initial policies for reinforcement learning via approximate dynamic programming (ADP) techniques for uncertain systems evolving with discrete-time dynamics. We employ the kernelized Lipschitz estimation to learn multiplier matrices that are used in semidefinite programming frameworks for computing admissible initial control policies with provably high probability. Such admissible controllers enable safe initialization and constraint enforcement while providing exponential stability of the equilibrium of the closed-loop system.

Keywords:

Reinforcement learning
Multiplier (economics)
Artificial intelligence
Computer science
Lipschitz continuity
Dynamic programming
Exponential stability
Semidefinite programming
Matrix (mathematics)
Mathematical optimization
Machine learning
Initialization

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations