东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于指纹和语义特征的文档复制检测方法

ISSN号：1007-791X
期刊名称：《燕山大学学报》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]燕山大学信息科学与工程学院,河北秦皇岛066004, [2]石家庄信息工程职业学院,河北石家庄050032
相关基金：国家自然科学基金资助项目（60773100）

作者：李旭[1], 赵亚伟[2], 刘国华[1]

关键词：复制检测, 文档表示, 指纹, 语义特征, 重叠度, copy detection, document representation, fingerprint, semantic feature, overlap

中文摘要：

文档复制检测是保护知识产权、提高信息检索效率的有效手段。提出一种基于指纹和语义特征的文档复制检测方法。介绍了指纹提取算法以及相关的重叠度度量，并且以知网的概念描述为基础对文本进行语义分析，利用词类信息和语义规则进行歧义消解，并采用基于框架的层级表示方法描述句子的语义特征。在3种测试集上把该方法与现存的方法在检测准确率上进行比较，实验结果表明该方法能够有效地检测出各种方式的复制文本。

英文摘要：

Copy detection for digital documents is a powerful tool to protect the author＇s intellectual property and to improve the efficiency of information retrieval. A document copy detection method based on fingerprint and semantic feature is proposed. The fingerprint extraction algorithm and corresponding overlap measure are introduced. Syntactic parsing and semantic analysis are combined on the basis of the description of the concepts in the HowNet, and the part of speech and semantic rule are used to eliminate ambiguities. A frame-based hierarchy approach is used to represent the semantic features of a sentence. The proposed method is compared with the existing ones from three aspects. The experiments validate the efficiency of the proposed method.

同期刊论文项目

DAS模型下视图发布安全问题的研究

期刊论文 91 会议论文 9 专利 1

同项目期刊论文

k-匿名隐私保护模型中k值的优化选择算法

基于多选集的视图安全发布算法

极少信息共享的敏感信息检索方法

相似时间子序列快速搜索的改进算法

空间网络数据库中反k最近邻查询算法

一种满足最大隐私泄漏率要求的匿名方法

基于错检期望值的密文索引技术

面向Artifact的业务过程模型

道路网络环境下的近似反k最近邻查询算法

基于最小Steiner树的关键词查询方法

一种求解动态数据集中k-支配轮廓的算法

基于素数的多源模式匹配方法的研究

空间网络数据库中基于M-tree索引的反最近邻查询算法

基于优化最大匹配与统计结合的汉语分词方法

k-匿名数据集的增量更新算法

更新环境下多样K-支配轮廓查找方法

面向top-K分级的数据库关键词查询系统体系结构

Ar/T-Net:一种面向Artifact的业务过程概念模型

一种适用于外包数据库的综合密文索引技术

基于本体的关系数据库关键词语义查询扩展方法

用于Web查询接口集成的模式匹配算法

PERFORMANCE ANALYSIS AND EVLUATION FOR POWER SAVING CLASS TYPE III IN IEEE 802.16E NETWORK

外包数据库模型中文本数据的完整性检测方案

基于映射的ArtiFlow向bpel的转换方法

ArtiFlow Designer：一种面向Artifact的业务流程设计工具

面向数据的流程实现中不同层的服务匹配

基于离散时间排队的ARQ性能分析

多样k-支配轮廓查找方法

外包数据库中字符数据的k-映射密文索引技术

道路网络中移动对象的连续反k最近邻查询算法

排序的子序列相似查询方法

k-匿名方法中相关视图集和准标识符的求解算法

基于多维桶的K-匿名表增量更新算法

基于最大叶子子树优先策略的多敏感属性保护方法

一种应用分治策略的中文分词方法

基于熵的视图安全性判定算法

Modeling and performance evaluation of the sleep mode in the IEEE 802.16e wireless networks with sel

基于共享策略的k-支配轮廓体的求解算法

基于个人化匿名的k-匿名方法的分析与改进

视图的k-匿名化方法

k-匿名方法中准标识符的求解算法

基于RDFS的本体集成方法

基于OWL的本体集成

一种优化的基于项目评分预测的协同过滤推荐算法

一种新的本体相似性计算方法

DAS模型下基于查询概率的密文索引技术

A Competitive Approach for Ontology Similarity Computation

A Detection Method for the Illegal Copying of Digital Documents

基于属性加权及逆向消除的约简算法

一种综合的本体相似度计算方法

Twig pattern查询处理研究综述和分析

一种基于OUS的最大频繁项集挖掘算法

本体中is-a层次的构建与本体集成

基于结构图的ETL过程建模方法

基于浓缩树结构的启发式属性约简算法

IEEE802．16e中节能类型I的排队性能分析

一种提高布料表面相交处理真实性的算法

基于KNN图的空间离群点挖掘算法

基于反k近邻的流数据离群点挖掘算法

基于本体的概念相似度计算

基于虚拟组织的校园网格服务发现机制

不确定数据上范围受限的最近邻查询算法

多序列比对问题的概率统计粒子群算法求解

数值和名义属性混合数据空间上的轮廓体查询方法

一种基于公交路线的规划方法

路网中互近邻查询处理方法

路网中查询点速度不确定的连续k近邻查询方法

列存储数据区级压缩模式与压缩策略选择方法

一种新的本体相似度计算方法

支持k近邻查询的X＊树索引结构

动态滑动窗口的数据流聚类方法

基于数据源信息语境的复杂模式匹配方法

基于资源区域的网格资源发现方法

结构图ETL概念模型的设计方法

基于PCA及属性距离和的孤立点检测算法

简单有效的确定聚类数目算法

TRA：改进的SVM增量学习淘汰算法

基于网络带宽差异的数据网格动态复制策略

相互协作中的私有信息检索方案

基于索引数组的频繁项集挖掘算法

基于Internet的远程视频监视系统的设计与实现

基于元数据驱动的ETL架构设计

一种改进的汉语全文无指导词义消歧方法

视图发布的安全问题（综述）

基于网格的教育资源共享平台体系结构研究

PERFORMANCE ANALYSIS OF POWER SAVING CLASS OF TYPE III IN IEEE 802.16E WITH USER INITIATED TRAFFIC

Modeling and performance evaluation of the sleep mode in the IEEE 802.16e wireless networks with self-similar traffic

一种基于浓缩树结构的属性约简算法

基于三元互关联后继树的Web日志挖掘

期刊信息

《燕山大学学报》
北大核心期刊（2014版）

主管单位:河北省教育厅
主办单位:燕山大学
主编：张福成
地址：河北省秦皇岛市燕山大学期刊社
邮编：066004
邮箱：xuebao@ysu.edu.cn
电话：0335-8057043

国际标准刊号：ISSN：1007-791X
国内统一刊号：ISSN：13-1219/N
邮发代号:18-73

获奖情况:
2009年获2004-2008年度河北省教育系统优秀期刊奖

国内外数据库收录:
美国化学文摘（网络版）,中国中国科技核心期刊,中国北大核心期刊（2014版）

被引量:3409