位置:成果数据库 > 期刊 > 期刊详情页
基于主题本体扩展特征的短文本分类
  • ISSN号:1000-1565
  • 期刊名称:《河北大学学报:自然科学版》
  • 时间:0
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]河北大学数学与计算机学院、河北省机器学习与计算智能重点实验室,河北保定071002
  • 相关基金:国家自然科学基金资助项目(60903088);河北省自然科学基金资助项目(F2013201064;A2010000188);河北大学、自然科学研究计划青年基金资助项目(2010Q23);河北省软科学研究计划项目(14450318D)
中文摘要:

短文本具有不同于普通文本的独有特点,例如文本长度较短,特征选择分散不一,这使得短文本文类需要处理这些特殊的问题.本文使用了基于主题本体的特征扩展方法,考虑了特征之间的语义关联,达到了较好的分类性能.同时,通过GC(扩展能力)算法使用了案例维护学习,在K-近邻算法中减少样例个数,从而可以提高搜索近邻样例的效率.数值型实验证明了这种学习算法的有效性.

英文摘要:

Short text classification problem need to face some special problems to be solved different from traditional text classification, such as short text length, features sparse. This paper uses the feature extended method based on theme Ontology. It can get better classification performance by considering the semantic relations. Meanwhile, using case-base maintenance learning via the GC (generalization capabili- ty) algorithm, which can reduce the case number into K-NN algorithm, can improve efficiency when inde- xing near neighbor in K-Nearest Neighbor algorithm. The numerical experiments prove the validity of this learning algorithm.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《河北大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:河北省教育厅
  • 主办单位:河北大学
  • 主编:傅广生
  • 地址:保定市五四东路180号
  • 邮编:071002
  • 邮箱:hbdxxbz@hbu.edu.cn
  • 电话:0312-5079413
  • 国际标准刊号:ISSN:1000-1565
  • 国内统一刊号:ISSN:13-1077/N
  • 邮发代号:18-257
  • 获奖情况:
  • 2008年10月荣获第二届中国高校优秀科技期刊奖,2008年荣获2006-2007年度河北省优秀科技期刊奖,2009年8月被河北省教育厅命名为2004-2008年度河北...,2009年8月在中国北方优秀期刊评选活动中被评为"中...,2009年10月荣获2009年全国高校科技期刊优秀编辑质量奖,2010年10月荣获第三届中国高校优秀科技期刊奖
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),美国剑桥科学文摘,英国动物学记录,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘
  • 被引量:5593