位置:成果数据库 > 期刊 > 期刊详情页
基于元数据与领域概念树的文本相似度计算
  • ISSN号:1001-506X
  • 期刊名称:《系统工程与电子技术》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]安徽师范大学数学计算机科学学院,安徽芜湖241003, [2]中国科学技术大学计算机科学与技术学院,安徽合肥230026, [3]中国科学技术大学管理学院,安徽合肥230026, [4]南京理工大学计算机科学与技术学院,江苏南京210094
  • 相关基金:国家自然科学基金(61201252,61203173,61073110);安徽省自然科学基金(1308085MF100);中国博士后科学基金(2013M531528);安徽省高校省级自然科学研究重点项目(KJ2011A128);安徽省科技厅软科学研究计划项目(11020503009)资助课题
中文摘要:

随着网络与信息技术的快速发展,导致网络上产生了大量的电子文本,而文本间的相似度计算是文本处理的一种重要手段。对于大规模的文本集,通常采用向量空间模型(vector space model,VSM)进行文本表示,但是该方法面临着文本向量维度较高及文本语义相似度难以度量的问题。提出一种改进的文本相似度计算方法,从大量的特征空间中选择出具有代表性的元数据特征向量元素,以降低向量空间的维度;构建领域概念树并设计基于领域概念树的文本相似度算法,对领域概念中广泛存在的同义词进行处理,以提高文本之间语义相似度度量的性能。实验结果表明:通过降维和概念相似度计算可提高文本相似度计算的性能。

英文摘要:

With the rapid development of network and information technology, a large number of electronic documents appear on the network, and the similarity computaion between the documents is an important means of document processing. For large-scale collection of documents, vector space model (VSM) is usually used for document representation, but the method is facing the problems of higher dimension and lack of semantic simi larity. An improved method for calculating the similarity of document is proposed. Metadata feature vectors are selected from a large number of representative feature space, so that it can reduce the dimension of the vector space. The domain concept tree is constructed and the algorithm for computing document similarity is designed. In order to improve the document semantic similarity of algorithm performance, the synonym concepts which exist in widespread areas are processed. The experimental results show that the proposed method can improve the performance of document similarity computation based on the dimensionality reduction and the concepts sim ilarity computing.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《系统工程与电子技术》
  • 北大核心期刊(2011版)
  • 主管单位:中国航天科工集团公司
  • 主办单位:中国航天科工防御技术研究院 中国宇航学会 中国系统工程学会
  • 主编:施荣
  • 地址:北京142信箱32分箱
  • 邮编:100854
  • 邮箱:xtgcydzjs@126.com
  • 电话:010-68388406
  • 国际标准刊号:ISSN:1001-506X
  • 国内统一刊号:ISSN:11-2422/TN
  • 邮发代号:82-269
  • 获奖情况:
  • 全国中文核心期刊,全国优秀科技期刊,中国科技论文统计用刊,中国期刊方阵“双百”期刊
  • 国内外数据库收录:
  • 德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:34341