首页
技术日记
编程
旅游
数码
登录
标签
MDPs
Deep Recurrent Q-Learning for Partially Observable MDPs翻译
摘要深度强化学习已经为复杂任务提供了精准的控制器。但是,这些控制器的内存有限,并且依赖于能够在每个决策点感知完整的游戏画面。为了解决这些缺点,本文研究了用循环LSTM替换卷
learning
Recurrent
deep
MDPs
Observable
admin
4月前
58
0