位置:成果数据库 > 期刊 > 期刊详情页
结合词性的短文本相似度算法及其在文本分类中的应用
  • ISSN号:1001-893X
  • 期刊名称:《电讯技术》
  • 时间:0
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:重庆理工大学计算机科学与工程学院,重庆400054
  • 相关基金:国家自然科学基金资助项目(11547148);重庆市教委科技计划项目(16SKGH133);重庆市社会科学规划博士项目(2015BS059)
中文摘要:

针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法(GCSSA).该方法在基于hownet(“知网”)语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度.实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性.

英文摘要:

To address the problem that the categorization accuracy of hownet-based short- text similarity calculation method in short-text is low, a grammatical category-combined short- text similarity algorithm (GCSSA) is proposed. Based on s hort- text hownet semantic similarity calculation method and combing with categorized features words,this method adds keywords grammatical category analysis,targets at catego-rized features words and the grammatical category information of keywords,gives different weights for differ-ent keywords,so as to differentiate the importance of various items' contribution in the text similarity calcu-lation of short-texts. Experiments show that compared with hownet-based short-text categorization algo- rithm,the proposed method improves the macro-average and micro-average accuracy by 4 % in short-text categorization,and improves the short-text categorization accuracy effectively.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《电讯技术》
  • 北大核心期刊(2011版)
  • 主管单位:中国电子科技集团公司
  • 主办单位:中国西南电子技术研究所
  • 主编:雷厉
  • 地址:四川省成都市金牛区营康西路85号
  • 邮编:610036
  • 邮箱:dxjs@china.com
  • 电话:028-87555632
  • 国际标准刊号:ISSN:1001-893X
  • 国内统一刊号:ISSN:51-1267/TN
  • 邮发代号:62-39
  • 获奖情况:
  • 信息产业部优秀期刊,首届《CAJ-CD规范》执行优秀期刊,工业和信息化部电子科技期刊2007~2008年度学术技...,四川省编校质量优秀奖期刊,工业和信息化部电子科技期刊2009-2010年度优秀期刊奖
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国乌利希期刊指南,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:8602