位置:成果数据库 > 期刊 > 期刊详情页
文本分类中的语义核函数研究
  • ISSN号:1007-7634
  • 期刊名称:《情报科学》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]武汉大学信息资源研究中心,湖北武汉430072
  • 相关基金:教育部人文社会科学重点研究基地重大项目(08jjD870225)
中文摘要:

传统的很多文本分类算法都是基于文本特征的数值统计信息来进行分类,只考虑特征在文本中的出现频率,而忽略了文本特征之间的语义相关性。针对文本分类任务,本文提出一种基于本体的语义核函数的构造方法,设计和实现了基于WordNet的语义核函数算法,并将该语义核函数嵌入支持向量机分类器中进行文本分类实验,在20NewsGroups数据集上的分类结果表明,基于语义核函数的支持向量机的分类效果明显优于基于线性核的支持向量机的分类效果。

英文摘要:

Many traditional text classification algorithms classify documents based on the terms' statistical information and they only take into account the frequencies of the terms in indexed documents and in the whole collection but ignore the semantic relevance of the documents' terms. In this paper, we propose an approach to the design of a semantic kernel function based on ontology, design and implement an algorithm of WordNet-based semantic kernel function, and then embed this semantic kernel into the Support Vector Machines (SVM) to accomplish a text categorization task. The experimental evaluation on 20 NewsGroups dataset indicates that the performance of the semantic kernel-based SVM outperforms the linear kernel-based SVM.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《情报科学》
  • 北大核心期刊(2011版)
  • 主管单位:国家教育部
  • 主办单位:中国科学技术情报学会 吉林大学
  • 主编:靖继鹏
  • 地址:长春市人民大街5988号
  • 邮编:130022
  • 邮箱:infosci@jlu.edu.cn
  • 电话:0431-85095200
  • 国际标准刊号:ISSN:1007-7634
  • 国内统一刊号:ISSN:22-1264/G2
  • 邮发代号:12-174
  • 获奖情况:
  • 全国中文核心期刊,2001年被评为吉林省科技类一级期刊
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:36930