针对多机器人系统智能协作存在的连续状态空间环境下合作策略自学习,以及合作策略自学习过程与多机器人协调控制的综合建模问题,研究基于新型泛化函数模型的多机器人系统合作策略自适应模型和智能协作模型。通过研究连续状态-动作空间的状态转移过程建模,建立包含状态转移估计和值函数逼近的泛化函数模型;进而研究基于泛化函数模型的合作策略优化算法和强化学习算法,构建多机器人系统合作策略自适应模型。通过分析合作策略自适应模型的时变策略对多机器人协调控制性能的影响,研究描述多机器人系统智能行为演化和空间运动过程的多机器人系统智能协作建模技术。通过建立多机器人实验系统,探讨合作策略自学习机制在多机器人系统中的实现方式和有效性。本项目的研究将为解决多机器人系统策略学习机制的泛化问题和同时学习问题提供有效的解决方案,也为多机器人系统智能协作机制的设计提供有效的理论分析和实现手段,具有重要的理论价值和应用前景。
multi-robot systems;time-sharing tracking learning;Gaussian regression;stochastic approximation;macroscopic concurrent learn
本项目针对连续空间多机器人系统的合作行为优化存在环境模型未知、策略优化收敛难以保证、工程实现中计算复杂度高等问题,以多智能体强化学习为理论基础,基于分时跟踪的强化学习和高斯回归建模方法,建立了一种新的合作策略自学习框架。基于所提的学习框架,通过提出具有较强泛化能力、保证同时学习收敛性的多智能体学习算法,构建了多机器人系统合作策略自适应模型。首先,通过高斯回归建立环境状态转移模型,提出了面向降维的联合状态独立动作空间基于非直接策略估计的跟踪学习算法,建立了基于高斯回归的连续多智能体最佳响应策略学习模型,为实现多机器人分布式合作策略学习以及连续空间策略泛化提供了基础算法。其次,通过分析多智能体强化学习在协作环境中的存在的动态性,研究强化学习的收敛条件、跟踪学习的运行特点,以及策略优化的需求,提出了合作式多智能体分时跟踪学习框架。结合实际应用环境建立多智能体跟踪学习切换原则,实现了一种宏观同时学习,以面向离散空间环境下建立多机器人协作策略优化方法。在以上方法的基础上,研究了影响多机器人系统协作建模的行为特点、环境反馈以及采样特点,对值函数及个体行为采用高斯回归对其进行逼近建模,将分时跟踪框架扩展到连续空间多智能体系统,建立了连续空间基于高斯回归的泛化模型的多智能体跟踪学习算法,完成连续空间多机器人系统合作策略自适应优化的目标。通过实物实验、RoboCup救援机器人仿真比赛取得的成绩,验证了所提方法的可行性和高效性。此外,还研究了多智能体同时学习中的预测、适应性等问题,并将所提的两阶段适应学习算法应用多机器人三连杆系统,也为模型未知的高维控制系统设计提供了新思路。本项目所提分时跟踪框架及基于高斯回归建模的学习方法可以实现离散/连续空间多智能体降维学习以及泛化,在保证策略优化收敛性的同时,又易于工程实现。通过本项目的研究在解决多智能体降维和同时学习问题的同时,有力促进了多智能体强化学习方法在连续空间多机器人系统的融合,为实现智能多机器人系统提供了自适应策略优化的实现方案,具有重要的理论意义和应用价值。