传统的文本表示方法是建立在"词袋"(Bag-Of-Words)表示方法上的,即认为文档是一个关于词或短语的离散集合。经典的信息检索模型、文本分类方法和文献挖掘算法等无一不是建立在这种表示方法之上的。然而这种表示抹杀了文档内部描述单元之间的句法、语义上联系,抹杀了自然语言固有的内在本质。实际上,单词之间有句法、语义上互相依赖,句子之间有前后、篇章的依赖,只有图或树等复杂结构才能有效地表示。本项目将围绕这一基本问题,开展二个方面的研究一,针对实际问题,如何利用图结构有效地表示文本;二,在图结构表示的基础上,如何有效地开展相关文献挖掘算法的研究,包括基于图结构的自动摘要、文本推理、评论信息的情感分析、文本分类的研究。项目研究的领域以生物文献挖掘为主,同时也利用TAC国际评测提供的数据,以验证算法的通用性。