位置:成果数据库 > 期刊 > 期刊详情页
基于词矢量相似度的短文本分类
  • ISSN号:1671-9352
  • 期刊名称:《山东大学学报:理学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院声学研究所,北京100190
  • 相关基金:国家自然科学基金资助项目(11161140319,9112C001,61271426);中国科学院战略性先导科技专项项目(XDA06030100,XDA06030500)国家国家高技术研究发展计划(863计划)项目(2012AA012503);中科院重点部署项目(KGZD-EW-103-2)
中文摘要:

互联网中出现的短文本内容短小,相互共享的词汇较少,因此在分类过程中容易出现大量的集外词,导致分类性能降低。鉴于此,提出了一种基于词矢量相似度的分类方法,首先利用无监督的方法对无标注数据进行训练得到词矢量,然后通过词矢量之间的相似度对测试集中出现的集外词进行扩展。通过与基线系统的对比表明,该方法的分类正确率均优于基线系统1%-2%,尤其是在训练数据较少的情况下,所提出的方法的正确率相对提高10%以上。

英文摘要:

As the short length of the Web short text and less shared words, a lot of out of vocabulary (OOV) words would appear, and these words make the task of text classification more difficult. To solve this problem, a new general framework based on word embedding similarity was proposed. First, get the word embedding file with unsupervised learning method based on unlabeled data. Second, extend the OOVs with the similar words in training data through computing the similarities of different word embeddings. The comparison with the baseline system shows that the pro- posed method gets better 1%-2% rate and outperforms more 10% rate on small training data set.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《山东大学学报:理学版》
  • 北大核心期刊(2011版)
  • 主管单位:中华人民共和国教育部
  • 主办单位:山东大学
  • 主编:刘建亚
  • 地址:济南市经十路17923号
  • 邮编:250061
  • 邮箱:xblxb@sdu.edu.cn
  • 电话:0531-88396917
  • 国际标准刊号:ISSN:1671-9352
  • 国内统一刊号:ISSN:37-1389/N
  • 邮发代号:24-222
  • 获奖情况:
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),波兰哥白尼索引,德国数学文摘,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘
  • 被引量:6243