增强学习(reinforcement learning)是来源于人脑自评价(adaptive critic)学习机制的一类学习控制方法,在复杂系统的优化控制方面有广泛的应用前景,并且与运筹学的近似动态规划理论密切结合,近年来成为机器学习与智能系统的研究热点。本项目针对连续空间马氏决策过程的优化控制问题,以基于核的自适应评价增强学习与近似动态规划方法为主要研究内容,重点解决增强学习中实现连续状态与行为空间值函数逼近的核方法及其快速稀疏化算法;基于核的近似动态规划理论框架,包括基于核的启发式动态规划HDP、对偶启发式规划DHP等优化控制新方法;以及增强学习与近似动态规划中能够结合先验信息的核函数构造与模型选择理论与方法等。本项目的成果将能够有效解决现有理论方法面临的算法收敛性和提高泛化性能等挑战问题,推动增强学习与近似动态规划在实际大规模优化控制问题中的应用。