东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

一种基于独立任务的POMDP问题的解决方法

ISSN号：1001-3695
期刊名称：《计算机应用研究》
时间：0
分类：TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]苏州大学计算机科学与技术学院,江苏苏州215006, [2]吉林大学符号计算与知识工程教育部重点实验室,长春130012
相关基金：国家自然科学基金资助项目（61103045,61272005,61272244,61303108,61373094）;江苏省自然科学基金资助项目（BK2012616）;江苏省高校自然科学研究项目（13KJB520020）;吉林大学符号计算与知识工程教育部重点实验室资助项目（93K172014K04）

作者：房俊恒[1], 朱斐[1,2], 刘全[1,2], 伏玉琛[1], 凌兴宏[1]

关键词： POMDP, 基于点的算法, 相互独立的任务, 多元POMDP, 受限制的POMDPs, POMDP, point-based algorithms, independent-tasks, factored POMDP, restricted POMDPs

中文摘要：

通常利用POMDPs对在部分可观测的随机环境中决策的agents建模。针对完整POMDP的求解方法扩展能力弱的问题，提出把多元POMDP分解成多个受限制的POMDPs，然后独立求解每个模型，以获得值函数，并将这些受限制的POMDPs的值函数结合起来以便获得完整POMDP策略。该方法主要阐述识别与独立任务相关的状态变量的过程，以及如何构造被限制在单独任务上的模型。将该方法应用到两个不同规模的岩石采样问题中，实验结果表明，该方法能够获得很好的策略。

英文摘要：

POMDPs are widely used to model agents acting in a stochastic environment under partial observability. Because the complete POMDP solvers have poor ability to scale up, this paper proposed to decompose a factored POMDP into a set of restricted POMDPs and solved each such model independently, acquiring a value function. And then, it used the combination of the value functions of the restricted POMDPs to form a policy for the complete POMDP. It mainly explained the process of identifying state variables that corresponded to independent tasks, and how to create a model restricted to a single task. Using this method on RockSample domain with two different size, experiment results show that this method can gain a good policy.

同期刊论文项目

多目标约束下的回归测试用例优化策略研究

期刊论文 32 会议论文 5

基于强化学习的前列腺癌蛋白质间相互作用网络的模型及方法研究

期刊论文 9

基于贝叶斯推理的模糊逻辑强化学习模型研究

期刊论文 31

基于支持向量机的增量式强化学习技术及其应用研究

期刊论文 11

基于复杂自适应系统的微网接入控制理论与算法研究

期刊论文 13

同项目期刊论文

A Sarsa(<i>λ</i>) Algorithm Based on Double-Layer Fuzzy Reasoning

一种批量最小二乘策略迭代方法

基于拓扑序列更新的值迭代算法

一种最大集合期望损失的多目标Sarsa(λ)算法

一种二阶TD Error快速Q(λ)算法

一种高斯过程的带参近似策略迭代算法

双精英协同进化遗传算法

一种优先级扫描的Dyna结构优化算法

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

基于优先级扫描Dyna结构的贝叶斯Q学习方法

基于两层模糊划分的时间差分算法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

一种基于线性函数逼近的离策略Q（λ）算法

一种基于优先级的迭代划分测试方法

一种基于高斯过程的行动者评论家算法

A parallel scheduling algorithm for reinforcement learning in large state space

一种基于高斯过程的行动者评论家算法

连续空间中的随机技能发现算法

增量式双自然策略梯度的行动者评论家算法

基于可中断Option的在线分层强化学习方法

一种用于连续动作空间的最小二乘行动者-评论家方法

一种基于视觉注意力机制的深度循环Q网络模型

基于多注意力卷积神经网络的特定目标情感分析

一种不稳定环境下的策略搜索及迁移方法

连续空间的递归最小二乘行动者—评论家算法

一种基于高斯过程的行动者评论家算法

连续空间中的随机技能发现算法

增量式双自然策略梯度的行动者评论家算法

基于可中断Option的在线分层强化学习方法

一种用于连续动作空间的最小二乘行动者-评论家方法

一种基于视觉注意力机制的深度循环Q网络模型

基于多注意力卷积神经网络的特定目标情感分析

一种不稳定环境下的策略搜索及迁移方法

一种基于示例轨迹的抽象动作树构造方法

一种最大集合期望损失的多目标Sarsa(λ)算法

一种二阶TD Error快速Q(λ)算法

一种三角形网格空洞修复算法

一种高斯过程的带参近似策略迭代算法

一种优先级扫描的Dyna结构优化算法

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

利用移动内点来修复传感器网络空洞的算法

基于优先级扫描Dyna结构的贝叶斯Q学习方法

基于两层模糊划分的时间差分算法

基于自适应归一化RBF网络的Q-V值函数协同逼近模型

基于主曲线的遥感图像河岸线提取

一种基于高斯过程的行动者评论家算法

基于多层卷积神经网络特征和双向长短时记忆单元的行为识别

增量式双自然策略梯度的行动者评论家算法

基于可中断Option的在线分层强化学习方法

一种用于连续动作空间的最小二乘行动者-评论家方法

一种基于视觉注意力机制的深度循环Q网络模型

基于多注意力卷积神经网络的特定目标情感分析

一种不稳定环境下的策略搜索及迁移方法

A parallel scheduling algorithm for reinforcement learning in large state space

基于栈式降噪自动编码器的气体识别

支持合并的自适应tile coding算法

基于变步长迭代算法的微轴承参量特性研究

一种基于NAND闪存高效的页面替换算法

高校数据库技术实验设计与在线实验系统整合研究

基于点特异度和自适应分类策略的眼底图像分割方法

基于局部自适应点特异度阈值的眼底图像血管分割方法研究

三维网格空间上的自组装模型

一种高斯过程的带参近似策略迭代算法

一种优先级扫描的Dyna结构优化算法

离散线性一致性算法噪声问题研究

线性均方一致性问题的偏差估计

融合迁移学习的TranCo—Training分类模型

一种基于高斯过程的行动者评论家算法

线性离散一致性系统均方偏差上界

期刊信息

《计算机应用研究》
北大核心期刊（2011版）

主管单位:四川省科学技术厅
主办单位:四川省计算机研究院
主编：刘营
地址：成都市成科西路3号
邮编：610041
邮箱：arocmag@163.com
电话：028-85210177 85249567

国际标准刊号：ISSN：1001-3695
国内统一刊号：ISSN：51-1196/TP
邮发代号:62-68

获奖情况:
第二届国家期刊奖百种重点科技期刊,国内计算技术类重点核心期刊,国内外著名数据库收录期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:60049