东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

一种基于随机n-Grams的文本相似度计算方法

ISSN号：1000-0135
期刊名称：《情报学报》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]温州大学瓯江学院,温州325035, [2]湖北文理学院数学与计算机科学学院,襄阳441053
相关基金：国家自然科学基金项目（61172084）、浙江省自然科学基金项目（Y1100137）、乐清市科技项目（2011R003）.

关键词：文本相似度, 评价函数, 集合, N-GRAM, R-Gram, text similarity, evaluation function, set, n-Gram, R-Gram

中文摘要：

文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域，然而传统的方法往往不具有语言无关性，且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足，提出了一种基于随机n—Grams（Randomn—Gram，记为R-Gram）的长文本相似度算法，该算法具备语言无关性，且可以充分利用短n—Gram的细粒度检测特性和长n—Gram的高效检测特性。实验结果表明：基于R—Gram的文本相似度算法具有快速、操作简单、精度调控灵活等优点，在长文本相似度计算中具有良好的应用价值。

英文摘要：

Text similarity computing is widely used in many text applications such as plagiarism detection, automatic question answering system and text clustering. However, most traditional methods for computing text similarity are dependent on a special language and spend much time on analyzing and extracting of feature items. In view of the shortages of traditional methods, a novel algorithm based on Random n-Grams （R-Gram） with language independence for long text is proposed, which can make full use of fine-grained characteristics of short n-Grams and high efficiency characteristics of long n-Grams. The results strongly suggest that text similarity algorithm based on R-Gram have the advantages of fast speed, easy operation and flexibility. As a bonus, it is beneficial for text similarity computing for lung texts.

同期刊论文项目

高可靠服务组合快速优化方法研究

期刊论文 30

　基于知识驱动的网络舆情热点识别与追踪相关技术研究

期刊论文 3

同项目期刊论文

基于改进的SMOTE和RST的新型混合重取样算法

一种基于混合重取样策略的非均衡数据集分类算法

基于状态保持的Web服务组合可信度度量方法

A Fast Optimization Method for Reliability and Performance of Services Composition Application in WS

Analyzing Comprehensive QoS with Security Constraints for Services Composition Applications in Wirel

Event-triggered guaranteed cost control for uncertain discrete-time networked control systems with t

A Fast Optimization Method for Reliability and Performance of Cloud Services Composition Application

Optimal Service Distribution in WSN Service System Subject to Data Security Constraints

T-S fuzzy-model-based robust stabilization for a class of nonlinear discrete-time networked control

Optimizing the Reliability and Performance for Service Composition Applications with Fault Tolerance

云计算环境下的混沌萤火虫的资源负载均衡算法

并行计算在MOEA/D-EGO算法中的应用

基于膜计算的蝙蝠算法在云计算资源调度的研究

基于Android智能手机的隐私管理系统的设计与实现

一种新的血管造影图像Hessian矩阵增强算法

快速非局部均值的CT图像去噪算法

基于残差灰色估计交通事故数量挖掘算法仿真

基于语义和改进BM算法的Web服务发现

Internet of Things: Hotspot-based Discovery

A Fault-Tolerant Method for Enhancing Reliability of Services Composition Application in WSNs Based

混合智能算法求解多连接查询优化问题

图像处理技术在机动车车牌自动识别技术中的应用

一种创新的运用场理论的SaaS服务发现方法

基于DE-GEP的高光谱遥感图像分类

基于语义的AdHoc网络服务发现

基于正交差分演化无迹卡尔曼滤波的短时交通流量预测算法

云计算数据中心网络的端到端流量计算

从《著作权法》“草案”舆情事件谈数字音乐版权问题

期刊信息

《情报学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国科学技术情报学会中国科学技术信息研究所
主编：戴国强
地址：北京复兴路15号
邮编：100038
邮箱：qbxb@istic.ac.cn
电话：010-68598273

国际标准刊号：ISSN：1000-0135
国内统一刊号：ISSN：11-2257/G3
邮发代号:82-153

获奖情况:
1992年全国优秀科技期刊评比二等奖,1997年中国科协优秀科技期刊三等奖,被国外4种检索工具录用

国内外数据库收录:
俄罗斯文摘杂志,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:19778