位置:立项数据库 > 立项详情页
基于hLDA层次主题模型的中文多文档摘要研究
  • 项目名称:基于hLDA层次主题模型的中文多文档摘要研究
  • 项目类别:青年科学基金项目
  • 批准号:61202247
  • 申请代码:F020606
  • 项目来源:国家自然科学基金
  • 研究期限:2013-01-01-2015-12-31
  • 项目负责人:李蕾
  • 依托单位:北京邮电大学
  • 批准年度:2012
中文摘要:

多文档摘要是一种文本浓缩技术,旨在为多篇文档生成一篇能概括主要内容的摘要,对海量信息服务具有很好的应用价值。本项目的特色是采用hLDA为中文多文档数据集建模,与中文语言特点相结合进行结果分析与模型优化,探索性能更好适用性更强的中文多文档摘要新方法。hLDA是一种无监督贝叶斯非参方法,不仅能在大规模离散无结构数据中挖掘潜在主题,组织成更符合人类认知的层次语义结构,而且能自动适应开放数据集的增长。相对已有的英文hLDA摘要,本项目的创新点主要有专门针对中文多文档语料集展开研究,将实现一种简单易行的无监督方法,不需要借助理想摘要的指导,对hLDA建模结果在中文语言应用上的优缺点进行深入分析,包括结合中文词法、句法分析及相似度计算等对主题路径的聚集与分离、词语层次分布等详细信息与人类认知的语义结构进行比较,并进行模型优化,充分利用潜在主题路径及主题间抽象层次关系,融合语言特征来实现文摘句抽取。

结论摘要:

英文主题词Multi-document summarization;Chinese Multi-document summarization;hLDA;hierarchical topic modeling;semantic features


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 6
  • 13
  • 0
  • 0
  • 0
相关项目
期刊论文 13 会议论文 5 获奖 2 专利 3
期刊论文 40 会议论文 14 著作 1
李蕾的项目