位置:成果数据库 > 期刊 > 期刊详情页
基于语义的VSM模型改进
  • ISSN号:1000-386X
  • 期刊名称:《计算机应用与软件》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]安徽大学计算智能与信号处理教育部重点实验室,安徽合肥230039, [2]安徽大学计算机科学与技术学院,安徽合肥230039
  • 相关基金:安徽省自然科学基金项目(11040606M133)
中文摘要:

文本聚类在很多领域都有广泛的应用,传统的文本聚类方法由于并不考虑语义因素,得出的聚类效果并不理想。利用语义对VSM模型进行变换,即基于语义对VSM模型的各维进行扭曲,将原本的正交坐标系基于语义变换为斜角坐标系,然后将文本的特征向量映射到变换后的VSM模型上再进行聚类,相对减小语义相关的特征向量间的语义距离,从而提高了文本聚类的召回率与查准率,并使得聚类的结果更加语义化。

英文摘要:

Text clustering is widely applied in many fields.However,traditional methods of text clustering do not consider the semantic factors;consequently,their clustering effect is not satisfactory.In this paper,we use semantics to transform VSM model,i.e.to distort each dimension of VSM model based on semantics,to transform original orthogonal coordinate system into oblique coordinate system based on semantics,and then to map the eigenvectors of the text onto the transformed VSM model.The clustering will be conducted after these have been done.This clustering method can relatively diminish semantic distances between the eigenvectors which are semantically relevant,therefore can raise the recall rate and precision rate of the text clustering,and make the clustering results more semantic.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用与软件》
  • 北大核心期刊(2011版)
  • 主管单位:上海科学院
  • 主办单位:上海市计算技术研究所 上海计算机软件技术开发中心
  • 主编:朱三元
  • 地址:上海市愚园路546号
  • 邮编:200040
  • 邮箱:cas@sict.stc.sh.cn
  • 电话:021-62254715 62520070-505
  • 国际标准刊号:ISSN:1000-386X
  • 国内统一刊号:ISSN:31-1260/TP
  • 邮发代号:4-379
  • 获奖情况:
  • 全国计算机类中文核心期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2011版),中国北大核心期刊(2000版)
  • 被引量:27463