东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于上下文多元信息的文档相似度计算研究

ISSN号：1006-7043
期刊名称：《哈尔滨工程大学学报》
时间：0
分类：TP391.2[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]哈尔滨商业大学计算机与信息工程学院,黑龙江哈尔滨150076, [2]哈尔滨工业大学教育部-微软语言语音重点实验室,黑龙江哈尔滨150001
相关基金：国家自然科学基金资助项目（60302021）：黑龙江省自然科学基金资助项目（F2004-04）.

关键词：相似度计算, 上下文, 多元信息, 相似函数, 知识获取, similarity computing, context, multi-grams, similarity function, knowledge acquisition

中文摘要：

提出一种基于上下文多元信息实现文档相似度计算的方法，该方法首先抽取文档的特征词，对具有相同（或相近）意义特征词的文档，分别获得特征词在上下文中同现词的词性、语义信息、位置关系、平均同现概率等多元信息，以量化形式描述成一个相似函数；然后分别从两两文档的相似函数中得到文档的相似度评价值，作为衡量文档相似程度的重要依据．利用该评价方法，使用NTCIR-3中的跨语言信息检索数据集中的中文文档，对初始检索文档的顺序重新排列，实验结果表明，该方法分别将前10个最佳召回文档和前100个最佳召回文档的平均精确度提高了15．45％-18．49％和11．96％～15．35％；在另一组有关相同网页信息的实验中，几组不同类别文档相似度F1-measure平均值均在95％以上．

英文摘要：

A novel solution of computing document similarity based on multi-grams of context is presented in this paper. In this study, the same feature information firstly is acquired from document pairs; and then, the usage of co-occurrence feature information is gotten in the context of speech, semantic, location, weighted average co-occurrence probability, and is expressed as the similarity function; finally, document similarity evaluation value is calculated for each document, The similarity evaluation value plays an important role in judging the document similarity degree. The Chinese document set from the NTCIR-3 workshop collection is used to evaluate the method, it shows that an average 15,45%-18.49% and 11.96%-15.35% increase in precision can be achieved at top 10 and 100 ranking documents level respectively. In another group experiment about the same Web information, average FTmeasure of textual similarity is above 95 %.

同期刊论文项目

面向特定领域基于Ontology的跨语言信息检索技术研究

期刊论文 24 会议论文 21 著作 1

同项目期刊论文

基于浅层分析的多文档自动文摘技

基于内容分析的话题检测研究

本体论和统计方法相结合的中英文

生物文本中蛋白质名称的识别

Two-stage Approach to Full Chi

基于内容相似度的文摘自动评测方

Domain Oriented Information Ex

The Research on the Influence

Optimation of MT System Based

英语基本名词短语识别向汉语的快

基于上下文多元信息的文档相似度

基于改进K-均值聚类的汉语语块识

基于文本内容的超链接分类研究

基于一种混合语言模型的自动文本

基于关联度评价的中心词扩展的英文文本语块识别

基于浅层分析的多文档自动文摘技术

基于改进K -均值聚类的汉语语块识别

基于内容相似度的文摘自动评测方法及其有效性分析

AN EFFICIENT APPROACH TO IMPORTANT BLOGGERS DISCOVERY

Blog研究

期刊信息

《哈尔滨工程大学学报》
中国科技核心期刊

主管单位:中华人民共和国工业和信息化部
主办单位:哈尔滨工程大学
主编：杨士莪
地址：哈尔滨市南岗区南通大街145号1号楼
邮编：150001
邮箱：xuebao@hrbeu.edu.cn
电话：0451-82519357

国际标准刊号：ISSN：1006-7043
国内统一刊号：ISSN：23-1390/U
邮发代号:14-111

获奖情况:
工信部科技期刊评比"优秀期刊奖",中国高校科技期刊评比"精品期刊奖","北方十佳期刊奖",首届黑龙江省政府出版奖--优秀期刊奖

国内外数据库收录:
俄罗斯文摘杂志,美国化学文摘（网络版）,美国数学评论（网络版）,波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）

被引量:11823