位置:成果数据库 > 期刊 > 期刊详情页
基于特征词相交和流形学习的文本分类方法
  • ISSN号:1007-2373
  • 期刊名称:《河北工业大学学报》
  • 时间:0
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]河北工业大学计算机科学与软件学院,天津300401
  • 相关基金:国家自然科学基金(51107027):河北省自然科学基金(F2013202104);天津市应用基础及前沿技术研究计划(13JCYBJC15400);河北省教育厅指导项目(Z2012164)
中文摘要:

针对文本分类中特征空间的高维性导致的“维数灾难”问题,提出了一种基于流形学习的文本分类模型,该模型利用流形学习算法对高维文本特征数据降维后再分类.同时针对夹角余弦中存在的相似性偏移问题,提出了一种新的文本相似性度量措施——特征词相交距离,其实质是计算两个文档中所包含的特征词的交集,并将该措施作为流形学习算法中选择邻域的依据.实验结果表明,特征词相交距离较好地表达了文档之间的相似性,利用基于特征词相交的流形学习算法对文本数据降维后再分类,在保证分类精度的前提下极大地提高了分类算法的执行效率,克服了采用欧式距离和夹角余弦选择邻域造成低维流形的扭曲从而导致的分类精度降低的问题.

英文摘要:

To overcome the problem of"curse of dimension" caused by the high dimensional text data, a text classification model based on manifold learning was proposed. In the model, the original text data were reduced with the manifold learning methods and the low dimensional features were classified. At the same time, to solve the problem of the similarity deviation in the angle cosine, the item word intersection as a new similarity measure was presented, which computed the intersection between the item words contained in two documents. And the measure was used to select the neighborhood in the manifold learning methods. Experiments demonstrated that the item word intersection distance better described the similarity between documents. The executing efficiency of classification algorithms were greatly improved while assuring the classification accuracy through extracting the low dimensional features from the text data with manifold learning algo- rithms. It solved the problem that selecting the neighborhood with Euclid distance and the angle cosine distance caused the distortion of the low dimensional manifold and led to the lower accuracy.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《河北工业大学学报》
  • 北大核心期刊(2011版)
  • 主管单位:河北省教育厅
  • 主办单位:河北工业大学
  • 主编:郭士杰
  • 地址:天津市北辰区双口镇西平道5340号
  • 邮编:300401
  • 邮箱:xuebao@hebut.edu.cn
  • 电话:022-60438311
  • 国际标准刊号:ISSN:1007-2373
  • 国内统一刊号:ISSN:13-1208/T
  • 邮发代号:
  • 获奖情况:
  • 1999年河北省高校学报“三优”评比优秀学报一等奖,2000年河北省优秀科技期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),德国数学文摘,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版)
  • 被引量:6302