首页
技术日记
编程
旅游
数码
登录
标签
reward
【强化学习】Reward Model(奖励模型)详细介绍
📢本篇文章是博主强化学习(RL)领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔
详细介绍
模型
reward
Model
admin
7月前
242
0
Expressing Arbitrary Reward Functions as Potential-Based Advice论文阅读
Abstract 在强化学习领域,结合外部的知识是个很重要的问题。基于势能的reward shaping为agent提供了指定形式的additional reward,这种做法是能保证最优策略不
论文
reward
Arbitrary
Expressing
Functions
admin
2025-1-31
95
0
award, reward, prize
award
reward
prize
admin
2023-11-19
97
0