位置:成果数据库 > 期刊 > 期刊详情页
基于LDA的中文词语相似度计算
  • ISSN号:1671-4628
  • 期刊名称:《北京化工大学学报:自然科学版》
  • 时间:0
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:北京化工大学信息科学与技术学院,北京100029
  • 相关基金:中央高校基本科研业务费(JD1502)
中文摘要:

针对基于语料库统计的词语相似度计算方法存在的一些缺陷,如:计算量大、向量的特征维度高、特征稀疏、忽略了词语的语义信息等,提出了一种基于latent Dirichlet allocation(LDA)的词语相似度计算方法,通过将词语的特征向量映射为词语的主题分布来计算词语间的相似度;通过与基于《知网》的词语相似度计算方法的对比,证明了该方法能有效降低特征维度,并具有较好的词语相似度计算效果。

英文摘要:

Word similarity measurement approaches based on corpus statistics have some defects,such as requiring complex calculations and high dimensions of vectors,having sparse feature words,and ignoring the sematic information within words.This paper proposes a word similarity calculation approach based on the latent Dirichlet allocation( LDA) model.Word vectors are mapped into a topic distribution to calculate extent of word similarity.A comparative experiment was conducted to compare the results obtained with word similarity measurements based on"Hownet"and the results show that our method can reduce the dimension of the feature space efficiently and afford good results.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《北京化工大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:教育部
  • 主办单位:北京化工大学
  • 主编:刘振宇
  • 地址:北京市北三环东路15号
  • 邮编:100029
  • 邮箱:bhxbzr@126.com
  • 电话:010-64434926
  • 国际标准刊号:ISSN:1671-4628
  • 国内统一刊号:ISSN:11-4755/TQ
  • 邮发代号:82-657
  • 获奖情况:
  • 1999年教育部优秀科技期刊二等奖,1997年第二届全国科技期刊评比三等奖,1995年全国重点高校自然科学学报二等奖,中国期刊方阵“双效”期刊,首届高校优秀科技期刊,全国石化行业优秀期刊一等奖
  • 国内外数据库收录:
  • 美国化学文摘(网络版),荷兰文摘与引文数据库,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:9420