瞄准Web 3.0的智能搜索引擎,深入研究Web搜索与挖掘的新理论和方法(1)研究Web的性质与演化规律,探索Web信息的基本特征,提出Web信息搜集的新模式和方法;(2)研究Web信息的语义表示与推理,探索异构Web信息关联、集成与重构的逻辑基础,提出Web异构信息的语义模型;(3)研究Web数据的挖掘与组织,从结构、内容和用户行为诸方面探索Web信息的模式,针对Web信息的异构性和时态性,建立支持高效访问的数据组织方式;(4)针对Web信息海量性的特点,研究分布并行挖掘理论与方法,为潜在的实际应用提供高性能算法和支持环境;(5)研究图像视频的语义自动标注,综合利用概念语义与关联信息,提高对Web图像视频理解的能力,提出Web多模态检索的新方法。 在上述理论研究成果的基础上,研制Web智能搜索引擎原型系统,验证本项目研究中提出的新理论和新方法。
Web Search;semantic representation;parallel mining;data organization;
能够从海量Web信息中挖掘出有用的知识,不仅有学术上的重要意义(证明我们对Web信息的形式、结构、时态等有深刻的理解),而且还有潜在巨大的社会经济价值。其研究难点在于Web信息的多样性、随机性、随意性、非结构化,而搜索与挖掘的应用常常追求的是相对比较具体明确的结果,从而使得发现一般且有用的规律十分困难。基于深度学习技术,利用云计算环境,结合众包机制,是Web搜索与挖掘理论与方法发展的一个新趋势。本项目主要成果包括以下五个方面。 1.提出了一种对微博和在线短评论进行局部化主题建模方法。该方法以局部文档为单位代替以词为单位打标签的方法,同时引入了背景信息消除词汇噪音,对微博商品评论的情感分析效果很好,论文被Google引用170次。 2.提出利用多种特征关联信息的融合和动态交互构建对象之间的相似关系和时序关系,设计多种数据对象模型,索引检索Web数据对象,能有效支持热点探测、分类、检索等Web应用,论文发表在SIGMOD、SIGIR、AAAI、ICDE等CCF A类国际会议,被Google引用50次。 3. 提出了一种演进式新闻文档摘要的生成方法,在摘要迭代过程中综合考虑了全局信息和局部信息,在纯文本摘要,文本和图像混合摘要,诗词生成等方面效果很好。在SIGIR、IJCAI、JCDL(最佳学生论文提名)、CIKM上发表了长文,博士生严睿获得了2012北京大学五四奖章。 4.提出了基于一致性正则化的多源跨领域迁移学习框架,能利用源领域上的局部数据,而且考虑了子分类器在目标领域上的预测的一致性。还提出挖掘领域间共性与特性的协同PLSA模型,从生成模型角度解决了从多领域间挖掘共享概念的学习问题,上述工作在IEEETKDE发表两篇论文,Google他引70次,庄福振博士获得2013年人工智能学会优秀博士论文。 5.开发了“天网搜索-中国事件检索与发现”系统。该系统整合了1000多万篇网页、文本、视频、微博数据,体现了多源大跨度建模等多项技术。同时也开发了Web数据并行挖掘云服务平台,提供从数据采集到数据预处理再到文本挖掘的一站式服务,并推广到并推广到电信、信息安全等领域。