东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

效用驱动的Markov强化学习

期刊名称：计算机工程与应用
时间：0
页码：42-44
语言：中文
分类：TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]南京财经大学信息工程学院,南京210046
相关基金：国家自然科学基金（the National Natural Science Foundation of China under Grant No.70802025）;;国家高技术研究发展计划（863）（the National Hida-Tech Research and Development Plan of China under Grant No.2002AA134020-04）南京财经大学校级课题（No.C0728）;江苏省“青蓝工程”项目.
相关项目：基于多智能体强化学习的电子市场动态定价研究

作者：韩伟|

关键词：强化学习, 智能体, MARKOV决策过程, reinforcement learning, intelligent agent, Markov decision process

中文摘要：

对智能体Q强化学习方法进行了扩展,讨论效用驱动的Markov强化学习问题。与单吸收状态相比,学习过程不再是状态驱动,而是效用驱动的。智能体的学习将不再与特定的目标状态相联系,而是最大化每步的平均期望收益,即最大化一定步数内的收益总和,因此学习结果是一个平均收益最大的最优循环。证明了多吸收状态下强化学习的收敛性,将栅格图像看作具有多个吸收状态的格子世界,测试了确定性环境下多吸收状态Q学习的有效性。

英文摘要：

This paper puts forward an extended model of Q learning and discusses a utility-drive Markov reinforcement learning.Compared with learning algorithm with single absorbed states,the learning target is not a state but to maximize the averaged utilities of agent in each decision process.The learning result is always a circle which lets agent acquire maximal rewards.Convergence of Q-learning is proved and the simulations in image grids indicates the learning result is a circle.

同期刊论文项目

基于多智能体强化学习的电子市场动态定价研究

期刊论文 10 会议论文 2

同项目期刊论文

对称协调博弈问题的多智能体强化学习

一种基于划分和集成思想的多智能体强化学习

基于进化算法的多智能体合作学习

基于模糊推理的多智能体强化学习

电子市场排污权交易的多智能体协商方法

虚拟企业资源结盟博弈的启发式遗传算法

基于边界样本协调的多智能体合作学习

带贯通约束的不规则排样分阶构造算法

长记忆过程的参数估计及其在金融市场中的应用