为何RL泛化如此难 伯克利博士从认知POMDP、隐式部分可观察解读
发布时间:2021-12-01 03:03:10 所属栏目:传媒 来源:互联网
导读:当今强化学习(RL)的问题很多,诸如收敛效果不好。在偏弱的实验环境里,模型测试结果看起来尚可,许多问题暴露得不明显,但大量实验已经证明深度 RL 泛化很困难:尽管 RL 智能体可以学习执行非常复杂的任务,但它似乎对不同任务的泛化能力较差,相比较而言,
|
当今强化学习(RL)的问题很多,诸如收敛效果不好。在偏弱的实验环境里,模型测试结果看起来尚可,许多问题暴露得不明显,但大量实验已经证明深度 RL 泛化很困难:尽管 RL 智能体可以学习执行非常复杂的任务,但它似乎对不同任务的泛化能力较差,相比较而言,监督深度网络具有较好的泛化能力。 有研究者认为,对于监督学习来说,发生一次错误只是分类错一张图片。而对于 MDP(马尔可夫决策过程)假设下的 RL,一次识别错误就会导致次优决策,甚至可能一直错误下去,这也是 RL 在现实世界没法用的根源。 为什么强化学习的泛化能力从根本上来说很难,甚至从理论的角度来说也很难?来自加州大学伯克利分校的博士生 Dibya Ghosh 等研究者共同撰文解释了这一现象,文章从认知 POMDP(Epistemic POMDP)、隐式部分可观察(Implicit Partial Observability)两个方面进行解释。论文共同一作 Dibya Ghosh 的研究方向是使用强化学习进行决策。之前,他曾在蒙特利尔的 Google Brain 工作。 (编辑:潍坊站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- Check Point 软件技术有限公司任命何伟国为大中华区董事总经
- 创作者注意了!抖音欲惩罚过度提高预期违规营销行为
- 北京天坛医院:以数字化提升医疗服务水平
- Ivanti跻身Gartner ITSM领导者象限!ESM战略和Neurons神经元
- 量子计算之父获艾萨克 牛顿奖 提出全球第一个量子计算机构想
- 思博伦被指定为Amazon Alexa Built-in的授权测试实验室
- 第一线集团荣获2019 CEIA “最佳MPLS VPN服务提供商”大奖
- 复工第一天 NETRIX和广大医护人员镇守“战疫”前线
- NVIDIA成功收购Mellanox,为打造新一代数据中心注入强劲动力
- 网易创新企业大会圆满收官 看新技术和新商业如何撞出花火


