位置:成果数据库 > 期刊 > 期刊详情页
基于上下文多元信息的文档相似度计算研究
  • ISSN号:1006-7043
  • 期刊名称:《哈尔滨工程大学学报》
  • 时间:0
  • 分类:TP391.2[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨商业大学计算机与信息工程学院,黑龙江哈尔滨150076, [2]哈尔滨工业大学教育部-微软语言语音重点实验室,黑龙江哈尔滨150001
  • 相关基金:国家自然科学基金资助项目(60302021):黑龙江省自然科学基金资助项目(F2004-04).
中文摘要:

提出一种基于上下文多元信息实现文档相似度计算的方法,该方法首先抽取文档的特征词,对具有相同(或相近)意义特征词的文档,分别获得特征词在上下文中同现词的词性、语义信息、位置关系、平均同现概率等多元信息,以量化形式描述成一个相似函数;然后分别从两两文档的相似函数中得到文档的相似度评价值,作为衡量文档相似程度的重要依据.利用该评价方法,使用NTCIR-3中的跨语言信息检索数据集中的中文文档,对初始检索文档的顺序重新排列,实验结果表明,该方法分别将前10个最佳召回文档和前100个最佳召回文档的平均精确度提高了15.45%-18.49%和11.96%~15.35%;在另一组有关相同网页信息的实验中,几组不同类别文档相似度F1-measure平均值均在95%以上.

英文摘要:

A novel solution of computing document similarity based on multi-grams of context is presented in this paper. In this study, the same feature information firstly is acquired from document pairs; and then, the usage of co-occurrence feature information is gotten in the context of speech, semantic, location, weighted average co-occurrence probability, and is expressed as the similarity function; finally, document similarity evaluation value is calculated for each document, The similarity evaluation value plays an important role in judging the document similarity degree. The Chinese document set from the NTCIR-3 workshop collection is used to evaluate the method, it shows that an average 15,45%-18.49% and 11.96%-15.35% increase in precision can be achieved at top 10 and 100 ranking documents level respectively. In another group experiment about the same Web information, average FTmeasure of textual similarity is above 95 %.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《哈尔滨工程大学学报》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国工业和信息化部
  • 主办单位:哈尔滨工程大学
  • 主编:杨士莪
  • 地址:哈尔滨市南岗区南通大街145号1号楼
  • 邮编:150001
  • 邮箱:xuebao@hrbeu.edu.cn
  • 电话:0451-82519357
  • 国际标准刊号:ISSN:1006-7043
  • 国内统一刊号:ISSN:23-1390/U
  • 邮发代号:14-111
  • 获奖情况:
  • 工信部科技期刊评比"优秀期刊奖",中国高校科技期刊评比"精品期刊奖","北方十佳期刊奖",首届黑龙江省政府出版奖--优秀期刊奖
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:11823