位置:成果数据库 > 期刊 > 期刊详情页
融入词和文本关系的文本表示模型研究
  • ISSN号:0253-2395
  • 期刊名称:《山西大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国人民大学信息学院,北京100083, [2]河北金融学院信息管理与工程系,保定071051, [3]华北电力大学学生处,保定071003
  • 相关基金:国家自然科学基金(71271209); 北京市自然科学基金(4132067); 教育部人文社会科学青年基金(11YJC630268); 中国人民大学科学研究基金项目(13XNH213); 河北省自然科学基金项目(A2013410011); 中国人保财险灾害研究基金项目(2014D07)
中文摘要:

为了改善向量空间模型的稀疏性,提高文本分类的效果,在不引入外部知识的情况下,通过挖掘语料库内部的词间关系和文本间关系,将其以不同的方式融入原始矩阵,形成了4种新的文本表示模型,并通过文本分类实验来验证其表达能力。实验证明,融入词和文本关系能明显改善KNN和SVM的分类效果。

英文摘要:

In order to improve the sparsity of the vector space model and text classification performance,without introduction external knowledge,this paper mines the relationships among terms and documents,and integrated the relationship into the original matrix to form 4new text representation models.Experiment results show that the text representation models integrated terms and documents relationships can improve the classification performance of SVM and KNN.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《山西大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:山西省教育厅
  • 主办单位:山西大学
  • 主编:杨斌盛
  • 地址:太原市坞城路92号
  • 邮编:030006
  • 邮箱:xbbjb@sxu.edu.cn
  • 电话:0351-7010455
  • 国际标准刊号:ISSN:0253-2395
  • 国内统一刊号:ISSN:14-1105/N
  • 邮发代号:22-42
  • 获奖情况:
  • 边疆七年获山西省一级期刊荣誉(1993-1999)
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),英国动物学记录,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:5651