位置:成果数据库 > 期刊 > 期刊详情页
基于句中词语间关系的文本向量化算法
  • ISSN号:1009-8054
  • 期刊名称:信息安全与通信保密
  • 时间:2014.4.10
  • 页码:84-88
  • 分类:TP301.6[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]上海交通大学信息安全工程学院,上海200240
  • 相关基金:国家自然科学基金资助项目(批准号:61272441,61171173)
  • 相关项目:海量网络舆情信息获取、分析及表达关键技术研究
中文摘要:

文本向量化是将文本转化为向量的代数模型建立过程,在文本处理领域具有重要的应用价值,是文本数据挖掘算法的关键环节。在著名的PageRank算法基础上,提出一种基于句中词语间关系的文本向量化算法。通过引入语义层面的词语关联来克服传统的基于词频统计数据的向量化方法语义敏感度不佳的缺陷。在不同的语料测试集上的实验表明,基于句中词语间关系的文本向量化算法有更高的准确率。

英文摘要:

Document vectorization is the process of building vector space model which has a number of potential applications on natural language processing. This paper describes an algorithm of vectorization through the relationships of word in a sentence based on the PageRank algorithm. The introduction of semantics relationship is then proposed to overcome the disadvantage of traditional statistics-based vectorization. Experimental results show that the new method has a better accuracy rate.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《信息安全与通信保密》
  • 主管单位:中国电子科技集团公司
  • 主办单位:中国电子第三十研究所
  • 主编:惠志斌 鲁传颖
  • 地址:四川成都市高新区创业路8号
  • 邮编:610041
  • 邮箱:
  • 电话:028-88203306 85169935
  • 国际标准刊号:ISSN:1009-8054
  • 国内统一刊号:ISSN:51-1608/TN
  • 邮发代号:62-208
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:7388