位置:成果数据库 > 期刊 > 期刊详情页
基于词相似性与CRP的主题模型
  • ISSN号:1003-6059
  • 期刊名称:《模式识别与人工智能》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京交通大学计算机与信息技术学院,北京100044, [2]中国中医科学院广安门医院,北京100053
  • 相关基金:国家973计划项目(No.2006CB504601)、国家科技支撑计划项目(No.2007BA110806-01)、国家自然科学基金项目(No.90709006)和北京市科学技术委员会科研攻关项目(No.D08050703020804)资助
中文摘要:

主题模型能提取隐含在文档中的主题,使文档可按主题进行归约、分类和检索,成为信息分类和检索领域的研究热点.针对LDA(Latent Dirichlet Allocation)主题模型不能自动确定主题数目的问题,提出一种结合词相似性与CRP(Chinese Restaurant Process)的隐主题模型,可自适应地动态更新主题内容,确定合理的主题数目.同时提出一种在动态更新主题数时超参数设置方法.在中医临床诊疗数据的实验中,获得领域专家解释性较好的分析结果.

英文摘要:

The topic model can extract the topics hided in documents to make the dimensions of documents reduced and the documents be classified and retrieved according to their topics. It is a research focus on information classification and retrieval fields. Aiming at the problem that the number of topics cannot be automatically determined in LDA topic model, a latent topic model is proposed by combining the similarity between words and Chinese restaurant process (CRP). It can adaptively update the contents and determine the rational number of topics. Meanwhile, a novel method of setting the hyperparameters during updating topics is put forward. The experimental results on traditional Chinese medicine (TCM) clinical dataset show the proposed model has good analysis results accepted by TCM expert.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《模式识别与人工智能》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会 中国自动化学会
  • 主办单位:国家智能计算机研究开发中心 中国科学院合肥智能机械研究所
  • 主编:郑南宁
  • 地址:安徽省合肥市蜀山湖路350号中国科学院合肥智能机械研究所
  • 邮编:230031
  • 邮箱:bjb@iim.cas.cn
  • 电话:0551-5591176
  • 国际标准刊号:ISSN:1003-6059
  • 国内统一刊号:ISSN:34-1089/TP
  • 邮发代号:26-69
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:10169