位置:成果数据库 > 期刊 > 期刊详情页
效用驱动的Markov强化学习
  • 期刊名称:计算机工程与应用
  • 时间:0
  • 页码:42-44
  • 语言:中文
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]南京财经大学信息工程学院,南京210046
  • 相关基金:国家自然科学基金(the National Natural Science Foundation of China under Grant No.70802025);;国家高技术研究发展计划(863)(the National Hida-Tech Research and Development Plan of China under Grant No.2002AA134020-04)南京财经大学校级课题(No.C0728);江苏省“青蓝工程”项目.
  • 相关项目:基于多智能体强化学习的电子市场动态定价研究
作者: 韩伟|
中文摘要:

对智能体Q强化学习方法进行了扩展,讨论效用驱动的Markov强化学习问题。与单吸收状态相比,学习过程不再是状态驱动,而是效用驱动的。智能体的学习将不再与特定的目标状态相联系,而是最大化每步的平均期望收益,即最大化一定步数内的收益总和,因此学习结果是一个平均收益最大的最优循环。证明了多吸收状态下强化学习的收敛性,将栅格图像看作具有多个吸收状态的格子世界,测试了确定性环境下多吸收状态Q学习的有效性。

英文摘要:

This paper puts forward an extended model of Q learning and discusses a utility-drive Markov reinforcement learning.Compared with learning algorithm with single absorbed states,the learning target is not a state but to maximize the averaged utilities of agent in each decision process.The learning result is always a circle which lets agent acquire maximal rewards.Convergence of Q-learning is proved and the simulations in image grids indicates the learning result is a circle.

同期刊论文项目
同项目期刊论文