现代工程应用系统正朝着大规模、复杂化的方向发展,基于传统控制理论与方法往往难以获得合适的控制器以满足系统性能指标的要求,为了实现复杂、未知系统控制器的自主设计,本项目从多目标优化算法、再励学习收敛速度和精度、神经网络结构进化策略及基于进化硬件的神经网络动态重构方法等四个方面展开了深入研究,取得了一系列的成果。在多目标优化算法方面,提出了一种带个人偏好的多目标优化算法,能够根据设计者的偏好优化得到不同性能指标的控制器;在再励学习收敛速度方面,提出了一种基于贝叶斯估计的神经网络权重初始化方法,该方法能够保证神经网络初始化后具有一定的控制能力;在再励学习收敛精度方面,提出了一种基于同时扰动随机逼近和遗传算法相结合的方法,不仅能够在局部提高学习速度,而且还能提高算法逼近精度,改善控制器性能;在神经网络结构进化策略方面,提出了一种自结构模糊神经网络控制算法和一种基于相关性的网络结构剪枝算法,两种算法均能实现网络结构和权重二者的同时进化;在基于进化硬件的神经网络动态重构方面,提出了一种在FPGA内部实现神经元功能的坐标旋转数字计算机算法,该算法依靠移位和求和能够实现精确的指数函数计算。
英文主题词Reinforcement learning; Multi-objective optimization; Neural network; Evolvable Hardware; Configuration evolution