深层网页(Deep Web)具有信息更新快、信息量大、信息质量好的特点, Deep Web数据本地化集成已成为当前的一种发展趋势。由于Deep Web是自治的、独立更新的,且数据变化频率不一,若按统一频率更新本地数据,则非常耗费资源。因而,对Deep Web增量信息获取的研究具有十分重要的研究意义。本项目面向Deep Web动态环境下数据管理的需求,研究基于逻辑强化学习的Deep Web增量信息获取技术。主要研究内容包括 ①研究建立Deep Web数据生成模型,预测Deep Web数据变化周期;②研究逻辑强化学习指导下的Deep Web数据更新策略,提高数据的时新性;③研究基于逻辑强化学习的Deep Web新数据发现策略,提高发现效率。本项目研究可进一步提高Deep Web信息集成服务质量,促进Deep Web信息集成关键技术的发展,使Deep Web信息能更好地为科研、生产和决策服务。
Deep Web;Incremental Data Acquisition;Incremental update;New data discovery;
由于Deep Web是自治的、独立更新的,其数据经常处于频繁更新的状态,而用户总希望能够得到当前Deep Web数据源中最新的内容。因此,Deep Web数据本地化集成必须解决远程数据源中数据的增量获取问题,以保持本地数据与远程数据的最大化同步。本项目面向Deep Web动态环境下本地化集成的数据管理需求,提出了采用非齐次泊松模型对Deep Web数据变化行为建模的理论与方法,建立Deep Web数据生成模型,该模型能较为准确的估计Deep Web数据的变化频率和预测数据下次变化的时刻,为Deep Web数据增量更新提供基础;针对消失和改变的Deep Web数据记录的增量更新,以属性值序列图模型为基础,提出了基于数据记录变化概率和基于数据记录变化频率子图的两种增量更新策略,该策略提高了增量更新的效率,从而提高了Deep Web本地数据的时新性;针对Deep Web数据源新产生的数据的增量获取,提出了一种基于逻辑强化学习的Deep Web新数据发现策略,提高了Deep Web新数据发现的效率;在本项目研究成果和研究所前期工作的基础上,设计并实现了两个Deep Web数据获取与集成的平台系统,目前系统整体运行效果良好,有效的验证了本项目提出的Deep Web增量信息获取方法的有效性。在项目实施过程中申请发明专利7项,其中2项已获授权;获得软件著作权2项;在国内、外核心期刊和国际会议发表学术论文18篇,其中SCI、EI检索15篇;成果通过省级鉴定1项;获得苏州市科技进步1项;获得苏州市自然科学优秀论文奖2项;培养了多名科研骨干人才,其中包括博士研究生6名(毕业4人、在读2人)、硕士研究生14名。