位置:成果数据库 > 期刊 > 期刊详情页
基于子树匹配的文本相似度算法
  • ISSN号:1003-6059
  • 期刊名称:模式识别与人工智能
  • 时间:2014
  • 页码:226-234
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]安徽师范大学数学计算机科学学院,芜湖214003, [2]中国科学技术大学计算机科学与技术学院,合肥230027, [3]南京理工大学计算机科学与技术学院,南京210094
  • 相关基金:国家自然科学基金项目(No.61201252,61203173)、中国博士后科学基金项目(No.2013M531528)、安徽省自然科学基金项目(No.1308085MF100)、安徽省高校省级自然科学研究重点项目(No.KJ2011A128)、安徽省科技厅软科学研究计划项目(No.11020503009)资助
  • 相关项目:可重构制造系统的模块化建模及可控调度优化研究
中文摘要:

为降低文本向量维度,提高文本间语义相似度度量性能,综合利用统计方法与语义词典的优势,提出一种文本相似度算法.基于文本生成元数据特征向量,减少向量空间维度,设计基于子树匹配的文本相似度算法,借助子树加速对文本相似度的计算,并通过将文本元数据特征向量与子树进行相似度语义匹配,提高文本相似度计算时语义相似度度量的准确性.该算法考虑到对元数据中同义词的语义理解,加强文本之间相似度度量时的语义覆盖能力.实验结果表明文中所提出的方法是可行和有效的.

英文摘要:

To reduce the dimensionality of text vectors and improve the performance of semantic similarity measurement, an algorithm for texts similarity computation is proposed, which combines the advantages of the statistical methods and semantic dictionary. The texts are utilized to generate metadata feature vectors, so that it reduces the dimensionality of text vectors space. The algorithm for computing texts similarity is designed based on subtrees matching and the speed of computing texts similarity is improved. The accuracy of texts semantic similarity measurement is improved by utilizing the semantic matching of metadata feature vectors and subtrees. The synonyms widely existing in metadata are processed by the proposed method, and the semantic coverage ability for similarity computation of texts is also enhanced. The experimental results show that the proposed method is feasible and effective.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《模式识别与人工智能》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会 中国自动化学会
  • 主办单位:国家智能计算机研究开发中心 中国科学院合肥智能机械研究所
  • 主编:郑南宁
  • 地址:安徽省合肥市蜀山湖路350号中国科学院合肥智能机械研究所
  • 邮编:230031
  • 邮箱:bjb@iim.cas.cn
  • 电话:0551-5591176
  • 国际标准刊号:ISSN:1003-6059
  • 国内统一刊号:ISSN:34-1089/TP
  • 邮发代号:26-69
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:10169