基于图结构的文献挖掘算法研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于图结构的文献挖掘算法研究

项目名称：基于图结构的文献挖掘算法研究
项目类别：青年科学基金项目
批准号：60803075
申请代码：F020510
项目来源：国家自然科学基金
研究期限：2009-01-01-2011-12-31

项目负责人：黄民烈
负责人职称：讲师
依托单位：清华大学
批准年度：2008

中文摘要：

传统的文本表示方法是建立在"词袋"（Bag-Of-Words）表示方法上的，即认为文档是一个关于词或短语的离散集合。经典的信息检索模型、文本分类方法和文献挖掘算法等无一不是建立在这种表示方法之上的。然而这种表示抹杀了文档内部描述单元之间的句法、语义上联系，抹杀了自然语言固有的内在本质。实际上，单词之间有句法、语义上互相依赖，句子之间有前后、篇章的依赖，只有图或树等复杂结构才能有效地表示。本项目将围绕这一基本问题，开展二个方面的研究一，针对实际问题，如何利用图结构有效地表示文本；二，在图结构表示的基础上，如何有效地开展相关文献挖掘算法的研究，包括基于图结构的自动摘要、文本推理、评论信息的情感分析、文本分类的研究。项目研究的领域以生物文献挖掘为主，同时也利用TAC国际评测提供的数据，以验证算法的通用性。

中文主题词：图结构；自动摘要；情感分析；文本推理；语义分类

成果综合统计