位置:成果数据库 > 期刊 > 期刊详情页
基于词汇集聚的文档相关性计算
  • ISSN号:1009-5896
  • 期刊名称:《电子与信息学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
  • 相关基金:国家“863”计划项目(2006AA012197)和国家自然科学基金重点项目(60435020)资助课题
中文摘要:

该文提出了一种基于词汇集聚的文档相关性计算方法。该方法以知网为知识库,依靠词汇集聚,将文档中存在语义关联的词语连接成链,计算各条词汇链权重,以词汇链为元素对文档进行形式化表示,最终利用文档的此种形式化表示进行相关匹配计算。该文在中图法分类的语料上,开展了文档相关性计算的实验,准确率达到了85.4%。实验结果表明,该方法在一定程度上描述了文档的语义信息,将文档间的相关比较从字符或词层面的直接比较提升到近似概念层次的比较,是一种计算文档间相关性的有效方法。

英文摘要:

A new document relevance calculating method based on lexical cohesion is presented in this paper. The main principle is: documents are formalized with lexicon chains which are constructed by extracting semantic-relative word clusters according to the lexicon cohesion principle under the help of semantic dictionary HowNet; then weight of each lexical chain is evaluated; finally relevance of documents is calculated with their representations. Experiments are conducted on corpus of Chinese Library Classification, and precision about 85.4% is achieved. The experimental results show that the method describes the semantic feature of documents to a certain extent, and it is an effective method for relevance calculating of documents.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《电子与信息学报》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院电子学研究所 国家自然科学基金委员会信息科学部
  • 主编:朱敏慧
  • 地址:北京市北四环西路19号
  • 邮编:100190
  • 邮箱:jeit@mail.ie.ac.cn
  • 电话:010-58887066
  • 国际标准刊号:ISSN:1009-5896
  • 国内统一刊号:ISSN:11-4494/TN
  • 邮发代号:2-179
  • 获奖情况:
  • 国内外数据库收录:
  • 荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:24739