项目主要研究非马尔可夫决策过程中的强化学习技术和应用。主要研究内容包括采用神经网络模型学习部分可感知马尔可夫决策过程(POMDP)的感知函数,从而研究高效的、可应用在POMDP中的强化学习算法;对于连续状态MDP模型,将研究在增量学习中满足收敛性的、一种新的函数估计模型,并将其应用在连续MDP的强化学习算法中;对于半马尔可夫决策过程(SMDP)的强化学习,本项目将致力于学习过程中自主发现子目标,从而建立分层的强化学习框架;并在分层强化学习框架中结合符号知识,以提高强化学习的收敛速度。项目理论研究成果将应用在Web用户分类、行为预测以及面向领域的搜索引擎技术中。
本项目着重开展非马尔可夫模型中的强化学习算法研究。多Agent系统是一种典型的非马尔可夫环境,本项目分析了合作多Agent学习、基于平衡解的多Agent学习和最佳反应多Agent学习的区别和联系,并提出了一个两层的多agent强化学习模型和算法。SMDP是另一种非马尔可夫模型,本项目着重研究option算法,提出了k-聚类等子目标发现算法,有效提高了大规模强化学习算法的收敛速度。而平均奖赏模型不同于常规的折扣模型,本项目针对MDP和SMDP分别提出了在线G-学习算法和离线G-学习算法,算法性能优于经典的R-学习算法。对于连续状态强化学习,采用CMAC网络进行函数估计,设计了一种连续状态空间强化学习算法,并将其应用到群控电梯调度中。提出了一个基于集成的学习分类器模型和算法,并将其应用在数据挖掘中。同时将强化学习成功应用到网络日志分析、主题爬虫和图像分割等领域中。本项目执行期间,共发表国际期刊论文5篇,国内重要学报论文6篇,国际会议论文16篇,发表Book Chapter文章3篇,获授权专利1项,申请国家发明专利6项,培养博士后在站人员1人,培养博士研究生2人,培养硕士研究生15人。