基于hLDA层次主题模型的中文多文档摘要研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于hLDA层次主题模型的中文多文档摘要研究

项目名称：基于hLDA层次主题模型的中文多文档摘要研究
项目类别：青年科学基金项目
批准号：61202247
申请代码：F020606
项目来源：国家自然科学基金
研究期限：2013-01-01-2015-12-31

项目负责人：李蕾
依托单位：北京邮电大学
批准年度：2012

中文摘要：

多文档摘要是一种文本浓缩技术，旨在为多篇文档生成一篇能概括主要内容的摘要，对海量信息服务具有很好的应用价值。本项目的特色是采用hLDA为中文多文档数据集建模，与中文语言特点相结合进行结果分析与模型优化，探索性能更好适用性更强的中文多文档摘要新方法。hLDA是一种无监督贝叶斯非参方法，不仅能在大规模离散无结构数据中挖掘潜在主题，组织成更符合人类认知的层次语义结构，而且能自动适应开放数据集的增长。相对已有的英文hLDA摘要，本项目的创新点主要有专门针对中文多文档语料集展开研究，将实现一种简单易行的无监督方法，不需要借助理想摘要的指导,对hLDA建模结果在中文语言应用上的优缺点进行深入分析，包括结合中文词法、句法分析及相似度计算等对主题路径的聚集与分离、词语层次分布等详细信息与人类认知的语义结构进行比较，并进行模型优化，充分利用潜在主题路径及主题间抽象层次关系，融合语言特征来实现文摘句抽取。

中文主题词：多文档摘要；中文多文档摘要；hLDA；层次主题建模；语义特征

结论摘要：

英文主题词Multi-document summarization；Chinese Multi-document summarization；hLDA；hierarchical topic modeling；semantic features

成果综合统计