位置:成果数据库 > 期刊 > 期刊详情页
应用hLDA进行多文档主题建模关键因素研究
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:2013.11.30
  • 页码:117-127
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京邮电大学计算机学院智能科学技术中心,北京100876
  • 相关基金:国家自然科学基金资助项目(71231002,61202247);北京邮电大学青年科研创新计划专项;北京市科学技术情报研究所项目“科技情报辅助系统”;中央高校基本科研业务费专项资金(2013RC0304);教育部信息网络工程研究中心.
  • 相关项目:基于hLDA层次主题模型的中文多文档摘要研究
中文摘要:

hLDA(层次潜在狄利克雷分配)在层次主题建模中的良好效果已经得到广泛验证.为了实现半监督或无监督,通常采用交叉验证或抽样超参来确定参数.但由于语料特征、建模需求等不确定因素,参数调节方法、建模效果和数率都是实际应用中的难点.该文首先结合贝叶斯线索和范围线索构成的统一分析框架,研究hLDA主题建模中的关键影响因素,然后给出一个切实有效的建模策略及流程,最终结合ACL MultiLing 2013多文档摘要语料进行实际建模效果评估.

英文摘要:

The results of hLDA (hierarchical Latent Dirichlet Allocation) in the hierarchical topic modeling have been widely validated. In order to achieve semi-supervised or unsupervised learning, cross-validation or sampling super parameters are usually used to determine the true parameters. However, corpus features, modeling demand and some other factors are uncertain. Hence, parameter adjustment, modeling effectiveness and efficiency are difficulty to achieve in practical applications. This paper builds a unified analytical framework by combining Bayesian theory and boundary information, analyzes the key factors in its topic modeling, then gives a series of practical and effective modeling strategies and processes, and finally evaluates the modeling results with multi-document summary corpus from ACL MultiLing 2013.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136