多机器人系统的协调以及如何使群体机器人能够适应其任务环境的动态变化而自动地规划其任务处理行为一直是多机器人系统研究的主要问题,而强化学习方法能够使机器人在同环境的交互过程中学习决策能力和行为能力。基于此,本项目就以下内容展开研究工作(1)研究强化学习状态空间量化方法,以解决强化学习的维数灾难问题;(2)研究利用函数逼近方法的非线性映射能力来实现强化学习的状态空间到动作空间的映射,以解决强化学习大规模、连续的状态空间和动作空间问题;(3)研究智能体预测方法和学习策略共享机制,以解决非马尔可夫过程的多智能体强化学习问题(4)研究强化学习在机器人足球比赛这种典型的多机器人系统中的应用,建立机器人足球决策系统的分级学习结构,使用研究的多智能体强化学习方法来实现各级任务的学习。因此,本项目的研究能够提高机器人的智能水平、自和学习能力,对实现多智能体之间的分工与协作有着重要的理论意义和实际价值。
Reinforcement learning;Multi-agent system;Robot soccer;Decision-making strategy;
如何使机器人能够适应其任务环境的动态变化而自动地规划其任务处理行为一直是多机器人系统研究的主要问题,而强化学习方法能够使机器人在同环境的交互过程中学习决策能力和行为能力。本项目主要完成的研究工作和取得的结果如下(1)研究了一种基于矢量量化的个体强化学习状态空间量化方法,有效地实现了强化学习状态空间基于分布特征的自适应分割;(2)分别研究了基于模糊推理系统和神经网络的强化学习方法,利用智能算法的非线性映射能力来解决强化学习中大规模、连续的状态空间和动作空间问题;(3)给出了多智能系统中联合动作获取方法和学习策略共享机制,实现了离散状态空间的多智能体强化学习,体现多智能学习中各智能体的相互影响和制约;(4)研究了个体强化学习理论和方法在智能移动机器人导航行为学习中的应用;(5)建立机器人足球决策系统的分级递阶结构,使用研究的强化学习方法来实现决策策略中角色分配、动作选择等各级任务的学习。因此,本项目的研究解决了部分强化学习的理论问题,拓展了强化学习在机器人导航和足球机器人比赛中的应用,为自主机器人的研究提供了新的思路和途径。