东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

增强学习算法的性能测试与对比分析

ISSN号：1001-3695
期刊名称：《计算机应用研究》
时间：0
分类：TP309[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
作者机构：[1]国防科学技术大学机电工程与自动化学院自动化研究所,长沙410073
相关基金：国家自然科学基金资助项目（60774076 90820302）; 湖南省自然科学基金资（07JJ3122）; 霍英东青年教师基金资助项目（114005）

作者：李兆斌[1], 徐昕[1], 吴军[1], 连传强[1]

关键词：增强学习, 值函数, 近似策略迭代, 平滑性, reinforcement learning, value function, approximate policy iteration, smoothness

中文摘要：

研究了几类典型增强学习算法的性能评估问题,包括Q-学习算法、最小二乘策略迭代（LSPI）和基于核的最小二乘策略迭代（KLSPI）算法等,重点针对Markov决策问题（MDP）的值函数平滑特性对算法性能的影响进行了研究。分别利用值函数非平滑的组合优化问题——旅行商问题（TSP）和值函数平滑的Mountain-Car运动控制问题,对不同增强学习算法的性能进行了测试和比较分析。分析了三种算法针对不同类型问题的各自特点,通过实验对比,验证了近似策略迭代算法,特别是KLSPI算法在解决值函数平滑的序贯决策问题时性能更优。通过分析实验结果表明,MDP值函数的平滑程度是影响近似策略迭代算法性能表现的重要因素。

英文摘要：

This paper studied the performance evaluation problem for reinforcement learning （ RL） algorithms,including Q-learning,least-squares policy iteration（ LSPI） and kernel based least-squares policy iteration（ KLSPI） . Investigated the performance influence of the smoothness of value functions in Markov decision processes in detail. Tested the RL algorithms on a combinatorial optimization problem—the traveling salesman problem （ TSP） ,which had non-smooth value functions and the Mountain-Car motion control problem with smooth value functions. Analyzed the characteristics of different RL algorithms and demonstrated that approximate policy iteration algorithms,especial KLSPI,had better performance when solving sequential decision-making problems with smooth value functions. Furthermore,it verifies that whether is the sequential decision-making problems with smooth value functions or not will play an important role in the performance of approximate policy iteration.

同期刊论文项目

高速公路车辆智能驾驶中的关键科学问题研究

期刊论文 151 会议论文 37

基于核的增强学习与近似动态规划方法研究

期刊论文 16 会议论文 12 著作 1

同项目期刊论文

车载单线激光雷达成像分割及噪声检测算法

基于激光雷达直线特征提取的自主车辆可通行区域检测

一种移动机器人SLAM中的多假设数据关联方法

Universal Strategy for Surveillance Video Defogging

基于马氏决策过程模型的动态系统学习控制:研究前沿与展望

质量工程的新亮点——国家精品视频公开课

基于阿克曼原理的车式移动机器人运动学建模

基于多模态Rao-Blackwellized进化粒子滤波器的移动机器人航迹推算系统的故障诊断

高速公路禁令标志检测与跟踪

基于粒子群优化的移动机器人SLAM方法

一种快速的模板匹配算法

A Study of Multi-Robot Stochastic Increment Exploration Mission Planning

On the non-equivalence between Lorenz System and Chen system

MARKOV SKELETON PROCESS IN PERT NETWORKS

结构化道路车道线的鲁棒检测与跟踪

Lpq-norm estimates associated with Burkholder inequalities

一种自适应的区域生长算法用于道路分割

图像去雾算法清晰化效果客观评价方法

强背景噪声下的多精度传感器故障诊断研究

Fast haze removal algorithm for surveillance video

Anomaly detection method based on kinematics model and nonholonomic constraint of vehicle

基于形状标记图和Gabor小波的交通标志识别

THE ERGODICITY OF STOCHASTIC GENERALIZED POROUS MEDIA EQUATIONS WITH LEVY JUMP

移动机器人SLAMiDE系统设计与实现

OPTIMAL INVESTMENT AND REINSURANCE IN A JUMP DIFFUSION RISK MODEL

基于雾气理论的视频去雾算法

移动机器人SLAM中一种混合数据关联方法

Ruin probability and optimal investment and excess of loss reinsurance policy

基于MSA不变矩的道路导向标线分类

不同精度的冗余传感器故障诊断研究

基于PCA的可变框架模型Retinex图像增强算法

随机增长网络模型的稳定性分析

多移动机器人通信系统研究进展

Triple RRTs: An Effective Method for Path Planning in Narrow Passages

图像去雾技术研究综述与展望

一种带宽约束的无线传感器网络节点调度算法

一种求解全局优化问题的混合自适应正交遗传算法

基于遗传算法的无线传感器网络重新部署方法

Performance analysis of M/G/1 queue with working vacations and vacation interruption

基于二维主成分分析的交通标志牌识别

Dynamic cluster member selection method for multi-target tracking in wireless sensor network

Constrained evolutionary optimization by means of (µ+λ)- differential evolution and imp

Performance analysis of MAP/G/1 queue with working vacations and vacation interruption

A spatial orthogonal allocation and heterogeneous cultural hybrid algorithm for multi-robot explorat

基于汽车运动学模型的航迹发生器设计与仿真

基于改进粒子群优化的Fastslam方法

一类无标度随机图的度序列

基于变长扫描模型的故障检测方法及其在GPS/INS组合导航系统中的应用

基于无抽取haar算法的实时卡尔曼滤波方法研究

Optimal reinsurance and investment under the CEV model in jump diffusion risk process

快速鲁棒的交通标志检测方法

城市环境中交通信号灯准确识别与状态估计

基于Gabor多尺度空间的不变兴趣点检测

基于Uni-Tire轮胎模型的车辆质心侧偏角估计

一种正交混沌蚁群算法在群机器人任务规划中的应用研究

基于FPGA/SOPC的预测控制器设计与实现

异常检测系统的漏洞分析

基于EKF的汽车轮胎力估计研究

A hybrid multi-swarm particle swarm optimization to solve constrained optimization problems

一种新的基于正交实验设计的约束优化进化算法

字典序进化算法用于组合优化问题

求解全局优化问题的混合自适应正交遗传算法

约束优化进化算法

Vision-based long-distance lane perception and front vehicle location for full autonomous vehicles o

A Discrete-time Retrial Queue with Two Types of Server Interruptions

Stochastic generalized porous media equations with Levy jump

带移民和拯救的碰撞分枝过程的性质

粒子群优化的多机器人协作定位方法

基于差异进化的克隆选择算法

汽车控制的研究现状与展望

基于FPGA/Nios-Ⅱ的矩阵运算硬件加速器设计

Stereo matching using weighted dynamic programming on a single-direction four-connected tree

Visual Saliency Based on Scale-Space Analysis in the Frequency Domain.

Degree distribution of a scale-free random graph model

基于观测器的输出反馈电子节气门控制器设计

A regularity model-based multiobjective estimation of distribution algorithm with reducing redundant

Enhancing the search ability of differential evolution through orthogonal crossover

Recognition algorithm for turn light of front vehicle

Fault detection and identification for dead reckoning system of mobile robot based on fuzzy logic pa

应用圆形度和颜色直方图的交通信号灯识别

描述逻辑非标准推理

基于最大不动点模型的描述逻辑系统FLε的有穷基

基于多模型表示的交通标志识别算法设计

中国人工智能40年

中国机器人学40年

多机器人地图融合方法研究

一种簇结构下的多移动机器人通信方法

当代学习自适应混合离散粒子群算法研究

一种无线传感器网络的二次部署方法

自然场景中字符型交通标志的检测算法

城市环境中箭头型交通信号灯的实时识别算法

基于LSPI和滚动窗口的移动机器人反应式导航方法

支持向量机平凡解判别与修正的新方法

UKF与Mean shift算法相结合的实时目标跟踪

一种改进的基于活动轮廓和光流的运动目标分割方法

一种基于双平行平面的激光雷达和摄像机标定方法

“中南移动二号”多移动机器人通信系统

改进混合离散粒子群的多种优化策略算法

基于无抽取Haar算法的实时卡尔曼滤波方法

非结构化环境下自主车辆轨迹规划方法

一种快速的Isomap算法

进化粒子滤波器对比研究及其在移动机器人故障诊断中的应用

一种在红外图像中定位人眼的方法

面向多机器人系统的增强学习研究进展综述

基于统计证据的半监督多分类器融合方法

基于多模态进化Rao-Blackwellized粒子滤波器的移动机器人航迹推算系统的故障诊断

一种基于圆形角点的瞳孔定位算法

H.264中快速运动估计算法的一种改进方案

Continuous-action reinforcement learning with fast policy search and adaptive basis function selecti

Sequential anomaly detection based on temporal-difference learning: principles, models and case Stud

Triple RRTs: an effective method for path planning in narrow passage.

面向资源分配问题的Q-CF 多智能体强化学习算法

协作多机器人系统研究进展综述

面向分布协同控制研究的仿真环境设计与实现

一种双轮驱动移动机器人的学习控制器设计方法

增强学习算法的性能测试与对比分析.

A novel multi-agent reinforcement learning approach for job scheduling in Grid Computing

支持向量机平凡解判别与修正的新方法

非结构化环境下自主车辆轨迹规划方法

越野环境下自主车辆导航地图自动创建方法研究

固态硬盘性能优化研究与实现

一种面向FPGA的快速Hough变换

一种融合多级稀疏表达和度量学习的目标跟踪方法

基于SAD与UKF-Mean Shift的主动目标跟踪

基于改进的粒子群优化的FastSLAM方法

均分点蚁群算法在群集机器人任务规划中的应用与研究

一种基于摄像机视角的立体视觉定位方法

融合动力学约束的自主平行泊车轨迹生成方法

四种虚拟力模型在传感器网络覆盖中的性能分析

一种基于预测模型的均值偏移加速算法

无线遥控智能车的控制研究

基于优化的深度图像修复与恢复算法

A spatial orthogonal allocation and heterogeneous cultural hybrid algorithm for multirobot exploration mission planning

信息审计中短消息中心实验环境的仿真

一种改进的RRT路径规划算法

一种改进的RRT路径规划算法

双轮驱动移动机器人的学习控制器设计方法

Contributions to Horn-Schunck optical flow equations-part I： Stability and rate of convergence of classical algorithm

采用核增强学习方法的多机器人编队控制

采用核增强学习方法的多机器人编队控制

Mild Solution of Stochastic Equations with Levy Jumps： Existence, Uniqueness, Regularity and Stability

快速的三维人手运动跟踪方法研究

期刊信息

《计算机应用研究》
北大核心期刊（2011版）

主管单位:四川省科学技术厅
主办单位:四川省计算机研究院
主编：刘营
地址：成都市成科西路3号
邮编：610041
邮箱：arocmag@163.com
电话：028-85210177 85249567

国际标准刊号：ISSN：1001-3695
国内统一刊号：ISSN：51-1196/TP
邮发代号:62-68

获奖情况:
第二届国家期刊奖百种重点科技期刊,国内计算技术类重点核心期刊,国内外著名数据库收录期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:60049