针对复杂连续系统的学习控制问题,对强化学习算法性能改进及应用等方面进行研究。把强化学习构建为一个简单的二分类问题,提出基于概率型支持向量机以及高斯过程分类器的Q学习;针对强化学习方法应用于电梯群控系统时面临的维数灾难问题,提出基于抽象状态的贝叶斯强化学习;利用概率型支持向量分类机给支持向量回归机提供实时、动态的知识以促进值函数的学习,提出基于协同支持向量机的Q学习;利用参数模型的丰富学习经验,提出基于半参数支持向量回归模型的强化学习;为避免过多人为因素造成的系统学习性能下降,提出基于图上基函数自动构造的策略迭代强化学习;为有效重复使用过去收集的样本和降低梯度估计方差,提出基于自适应重要采样的离策略Actor-Critic学习;为在Critic评估中平衡数据有效性和计算有效性之间的关系,提出两种增量式Actor-Critic学习;为减小梯度估计方差以及提高算法的学习收敛速度,提出基于参数探索的期望最大化策略搜索。此外,根据国内外与本项目相关内容的发展情况,还对智能优化和支持向量机等进行了研究。基于上述成果,出版专著1部,发表学术论文24篇,被SCI、Ei收录21篇。
英文主题词complex continuous system; reinforcement learning; support vector machine; intelligent optimization