针对强化学习存在的基函数选取困难、学习速度慢及算法收敛性难以保证等问题,设计一类有效的强化学习控制方法,并将其应用于机器人行为学习领域。研究内容包括基于图上测地高斯基函数的强化学习、基于自然策略梯度的强化学习、基于知识迁移的强化学习。为了能够有效反映机器人世界的拓扑结构,引入测地高斯基函数逼近值函数,并通过递归策略迭代实现机器人的在线、增量式学习;为避免由于值函数逼近误差造成的策略震荡,研究黎曼空间中的自然策略梯度强化学习算法;进一步,如果具有不同传感器-驱动器的异构机器人面临一系列相关或者类似任务时,借助于认知心理学中的知识迁移概念,实现源任务与目标任务间的自主映射以有效提高强化学习的速度。通过在移动机器人行为学习问题中的应用,验证上述强化学习控制方法的可行性和有效性。研究成果将深化和丰富现有的强化学习理论,增强机器人的自主能力。
reinforcement learning;behavior learning;basis function;Actor-Critic learning;knowledge transfer
针对强化学习存在的基函数选取困难、学习速度慢及算法收敛性难以保证等问题,对强化学习算法性能进行改进并将其应用于机器人行为学习等领域。为更好体现动作之间的差异性,提出基于状态-动作图测地高斯基的策略迭代强化学习;把强化学习构建为一个简单的二分类问题,提出基于概率型支持向量机的Q学习;利用参数模型的丰富学习经验,提出基于半参数回归模型的强化学习;针对强化学习方法应用于电梯群控系统时面临的维数灾难问题,提出基于抽象状态的贝叶斯强化学习;为有效重复使用过去收集的样本和降低梯度估计方差,提出基于自适应重要采样的离策略Actor-Critic学习;为在Critic评估中平衡数据有效性和计算有效性之间的关系,提出增量式Actor-Critic学习;为减小梯度估计方差以及提高算法的学习收敛速度,提出基于参数探索的期望最大化策略搜索;同时考虑蚁群算法的所有运行参数,利用图论将源任务的参数知识自动地迁移到目标任务,得到针对目标任务的最优参数组合,提出一种基于图知识迁移的蚁群算法参数选择方法;根据源任务数据是否可以访问,自适应地采用路径预测概率或成分预测概率进行相似度判定,提出基于相似度衡量的决策树自适应迁移;为充分利用源域包含的有用信息,同时避免无关信息可能导致的负迁移现象,提出一种加权多源TrAdaBoost;基于知识迁移的Ant-Q利用贝叶斯理论从源任务中筛选出有效迁移样本,指导Agent快速做出合理决策;利用拉普拉斯特征映射能保持状态空间局部拓扑结构的特点,对基于谱图理论的层次分解技术进行改进,提出一种基函数与子任务最优策略迁移相结合的强化学习混合迁移方法。此外,根据国内外与本项目相关内容的发展情况,还对智能优化、半监督学习等机器学习方法进行了研究。基于上述成果,培养博、硕士研究生6名,发表学术论文35篇,被SCI收录8篇,被Ei收录33篇。