典型的强化学习算法采用状态- - 活动对来表示行为策略,因而不可避免地出现学习参数个数随着状态变量维数呈指数级增长的现象,即"维数灾",这一问题严重制约着强化学习在实际中的应用。本项目拟针对强化学习中存在"维数灾"的问题,提出面向tableau模型的逻辑强化学习方法,并应用于Deep Web信息搜索中。主要思想是将强化学习与归纳逻辑程序设计相结合,采用逻辑语言表示状态和活动等方面的知识,使用tableau模型简化状态空间,达到更大程度地提高强化学习算法收敛速度的目的。因此面向tableau模型的逻辑强化学习的研究,可以有效地解决强化学习中的"维数灾"的问题,对于强化学习在大规模网络信息搜索中的应用,既具有一定的理论价值,又有广阔的应用前景。
logic reinforcement learning;tableau model;curse of dimensionality;Deep Web;
本项目针对强化学习中存在“维数灾”的问题,提出基于tableau模型的逻辑强化学习方法,并应用于Deep Web信息搜索中。主要完成了以下五方面内容 ⑴ 将强化学习与归纳逻辑程序设计相结合,对强化学习算法中的状态、活动用逻辑表达式进行抽象。充分利用归纳逻辑程序设计语言的谓词、表、截断等的优势,建立起强化学习状态之间的逻辑关系,简化活动策略的选择,提高强化学习的收敛速度。 ⑵ 采用tableau推理模型对逻辑状态和逻辑活动进行建模,研究一种新的函数估计模型,使其一方面能够以任何精度逼近理论的强化学习值函数,另一方面在增量环境中保证收敛性。 ⑶ 将布尔剪枝、IP-tableau等方法与逻辑强化学习相结合,对逻辑状态空间模型进行相应的等价转换,采用解线性方程组的方式来简化状态空间,降低状态空间维数,解决大规模、连续的MDP问题。在tetris问题中,试验所设计的强化学习框架和算法,并对比收敛速度。 ⑷ 结合我们所研究的模型和算法,研究一种面向Deep Web搜索引擎的自适应爬虫搜索算法。在模型不确定的情况下,寻找满足搜索算法的优化目标的最优策略,达到爬虫总搜索路径最短、搜索无关页面最低等,并在性能上对比目前常用的几种爬虫调度算法。 ⑸ 设计实现上述理论、优化算法的系统原型,并应用于Deep Web搜索引擎中,实现对Deep Web搜索的策略优化。