东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

一种不稳定环境下的策略搜索及迁移方法

ISSN号：0372-2112
期刊名称：《电子学报》
时间：0
分类：TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]苏州大学计算机科学与技术学院,江苏苏州215006, [2]苏州大学江苏省计算机信息处理技术重点实验室,江苏苏州215006, [3]符号计算与知识工程教育部重点实验室(吉林大学),吉林长春130012, [4]苏州科技学院电子与信息工程学院,江苏苏州215011
相关基金：国家自然科学基金（No.61303108,No.61373094,No.61272005,No.61472262,No.61502329）;江苏省高校自然科学研究基金（No.13KJB520020）;吉林大学符号计算与知识工程教育部重点实验室基金（No.93K172014K04）;苏州市应用基础研究计划基金（No.SYG201422）;苏州大学高校省级重点实验室基金（No.KJS1524）;中国国家留学基金（No.201606920013）

作者：朱斐[1,2,3], 刘全[1,3], 傅启明[1,3,4], 陈冬火[1], 王辉[1], 伏玉琛[1]

关键词：强化学习, 策略搜索, 策略迁移, 不稳定环境, 公式集, reinforcement learning, policy search, policy transfer, non-stationary environment, formula set

中文摘要：

强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策略求解问题.针对不稳定环境下的策略求解问题,利用MDP分布对不稳定环境进行建模,提出一种基于公式集的策略搜索算法——FSPS.FSPS算法在学习过程中搜集所获得的历史样本信息,并对其进行特征信息的提取,利用这些特征信息来构造不同的用于动作选择的公式,采取策略搜索算法求解最优公式.在此基础之上,给出所求解策略的最优性边界,并从理论上证明了迁移到新MDP分布中策略的最优性主要依赖于MDP分布之间的距离以及所求解策略在原始MDP分布中的性能.最后,将FSPS算法用于经典的Markov Chain问题,实验结果表明,所求解的策略具有较好的性能.

英文摘要：

As an online learning algorithm,reinforcement learning,which obtains the optimal policy with the maximum expected cumulative reward by interacting with the environment,is mostly based on the stationary Markov Decision Process（MDP） but however is unable to deal with problems of the non-stationary case because traditional reinforcement learning algorithms cannot be used to learn an optimal policy directly due to the failure of MDP model after the agent once interacts with the environment.Hereby,a novel policy search algorithm based on a formula set（FSPS）,which is generated by features extracted from the collected historical sample trajectories,was proposed.The algorithm adopted the formula with the best performance as the optimal policy.The algorithm also took advantage of concept of transfer learning by transferred the learned policy between two similar MDP distributions,where the performance of the transferred policy mainly depends on the distance between two MDP distributions as well as the performance of the learned policy in the original MDP distribution.Simulation results on the Markov Chain problem show that the algorithm can solve the problem of the non-stationary case quite well.

同期刊论文项目

基于支持向量机的增量式强化学习技术及其应用研究

期刊论文 11

基于强化学习的前列腺癌蛋白质间相互作用网络的模型及方法研究

期刊论文 9

基于重要性采样的并行离策略强化学习方法研究

期刊论文 10

基于模糊逻辑的大规模强化学习理论及方法

期刊论文 10

基于贝叶斯推理的模糊逻辑强化学习模型研究

期刊论文 31

同项目期刊论文

一种基于独立任务的POMDP问题的解决方法

一种基于高斯过程的行动者评论家算法

连续空间中的随机技能发现算法

增量式双自然策略梯度的行动者评论家算法

基于可中断Option的在线分层强化学习方法

一种用于连续动作空间的最小二乘行动者-评论家方法

一种基于视觉注意力机制的深度循环Q网络模型

基于多注意力卷积神经网络的特定目标情感分析

连续空间的递归最小二乘行动者—评论家算法

一种基于独立任务的POMDP问题的解决方法

一种基于高斯过程的行动者评论家算法

连续空间中的随机技能发现算法

增量式双自然策略梯度的行动者评论家算法

基于可中断Option的在线分层强化学习方法

一种用于连续动作空间的最小二乘行动者-评论家方法

一种基于视觉注意力机制的深度循环Q网络模型

基于多注意力卷积神经网络的特定目标情感分析

一种基于示例轨迹的抽象动作树构造方法

一种最大集合期望损失的多目标Sarsa(λ)算法

一种二阶TD Error快速Q(λ)算法

一种三角形网格空洞修复算法

一种高斯过程的带参近似策略迭代算法

一种优先级扫描的Dyna结构优化算法

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

利用移动内点来修复传感器网络空洞的算法

基于优先级扫描Dyna结构的贝叶斯Q学习方法

基于两层模糊划分的时间差分算法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

基于主曲线的遥感图像河岸线提取

一种基于独立任务的POMDP问题的解决方法

一种基于高斯过程的行动者评论家算法

基于多层卷积神经网络特征和双向长短时记忆单元的行为识别

增量式双自然策略梯度的行动者评论家算法

基于可中断Option的在线分层强化学习方法

一种用于连续动作空间的最小二乘行动者-评论家方法

一种基于视觉注意力机制的深度循环Q网络模型

基于多注意力卷积神经网络的特定目标情感分析

A parallel scheduling algorithm for reinforcement learning in large state space

基于栈式降噪自动编码器的气体识别

支持合并的自适应tile coding算法

基于变步长迭代算法的微轴承参量特性研究

一种基于NAND闪存高效的页面替换算法

高校数据库技术实验设计与在线实验系统整合研究

一种基于优先级的迭代划分测试方法

增量式双自然策略梯度的行动者评论家算法

一种基于视觉注意力机制的深度循环Q网络模型

基于多注意力卷积神经网络的特定目标情感分析

基于函数逼近的冗余值迭代算法

蓝牙室内定位自适应算法研究

大学生体质分析及其应用研究

基于经验回放Q-Learning的最优控制算法

连续空间中的一种动作加权行动者评论家算法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

连续空间中的随机技能发现算法

增量式双自然策略梯度的行动者评论家算法

基于可中断Option的在线分层强化学习方法

一种基于视觉注意力机制的深度循环Q网络模型

基于多注意力卷积神经网络的特定目标情感分析

支持合并的自适应tile coding算法

连续空间中的一种动作加权行动者评论家算法

期刊信息

《电子学报》
中国科技核心期刊

主管单位:中国科学技术协会
主办单位:中国电子学会
主编：郝跃
地址：北京165信箱
邮编：100036
邮箱：new@ejournal.org.cn
电话：010-68279116 68285082

国际标准刊号：ISSN：0372-2112
国内统一刊号：ISSN：11-2087/TN
邮发代号:2-891

获奖情况:
2000年获国家期刊奖,2000年获国家自然科学基金志项基金支持,中国期刊方阵“双高”期刊

国内外数据库收录:
美国化学文摘（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,英国英国皇家化学学会文摘,中国北大核心期刊（2000版）

被引量:57611