东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

一种基于同级字段的相似重复记录检测方法

ISSN号：1003-6970
期刊名称：《软件》
时间：0
分类：TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]周口师范学院计算机科学与技术学院,河南周口466001
相关基金：国家自然科学基金青年项目（61103143）;周口师范学院青年科研基金项目（zknuc0215）

作者：殷秀叶[1]

关键词：相似重复记录, 大数据, 同义属性, approximately duplicated records, big data, MapReduce, synonymous property

中文摘要：

大数据环境下的相似重复记录影响数据统计分析结果的准确性,需要过滤相似重复记录.对相似重复记录检测的研究现状做了介绍,在此基础上提出了属性加权的思想,对属性进行加权,并根据属性权值进行排序分组;在对属性加权时,考虑到一些字段的取值是一一对应的关系,权值相同,提出了同义属性的概念,在原数据集的基础上排除部分同义属性来缩减数据集,提高重复数据检测的效率,最后给出了相似重复记录判定的方法.考虑到大数据集给重复记录检测带来的挑战,将大数据集拆分成若干小数据集,充分利用MapRe-duce机制进行处理,将大数据集按照权重较大的属性取值进行分组,分割成若干个map任务,分别进行处理.实验结果表明,该方法能够有效地提高相似重复记录检测的效率.

英文摘要：

The accuracy of the data statistical analysis is affected by approximately duplicated records in big data environments, so the approximately duplicated records need to be filtered. We introduced the current research of approximately duplicated records and proposed the weighted attribute idea, weigh- ting the attributes and grouping them according to the weights. Considering that some field＇s relation- ship is one to one, we proposed synonymous property. We excluded some synonymous property on the basis of the original dataset to reduce the dataset and improve the efficiency of detection of approximate- ly duplicated records . Finally synonymous property was proposed. Big datasets were split into a num- ber of small datasets considering the challenge of approximately duplicated records in big dataset. Tak- ing full advantage of MapReduce processing mechanism, big datasets were grouped according to the weight of the larger attribute values, and then divided into a number of map tasks to process. Experi- ment shows that this method can improve detection efficiency of approximately duplicated records effec- tively.

同期刊论文项目

云计算环境下融入安全的资源分配优化模型及其可信智能算法研究

期刊论文 77 会议论文 3

同项目期刊论文

多目标优化量子免疫算法求解基站选址问题

具有完全学习策略的量子行为粒子群癌症基因聚类算法

免疫记忆克隆算法求解3G基站选址优化问题

一个易扩展的匿名车载网信息鉴别方案

Some new sufficient conditions for generalized strictly diagonally dominant matrices

基于混合高斯模型和空间模糊度的支持向量机算法研究 <br />

<span id="FileTitle"><strong>采用遗传-退火算法的网格依赖任务可信调度</strong></span>

<span style="font-family:宋体;font-size:18pt;"><strong>采用遗传<span>-</spa

采用群组密钥管理的分布式车联网信息认证方案

一种基于模糊逻辑的P2P僵尸网络防御模型

Based on WDM of Disk Immunity Systems

基于多点映射分解的网络突变流量分解仿真

Analyzing Requirements of Customer For WLAN using Novel Two-stage Method

一种基于蚁群算法的Sybil攻击防御

一种经典遗传算法下的异构云环境能效优化策略

Energy-Efficient Multi-Job Scheduling Model for Cloud Computing and Its Genetic Algorithm

基于有限源排队系统的传感网络传输性能研究 <br />

<span style="font-family:宋体;font-size:15pt;"><strong>云环境下能耗优化的任务调度模型及虚拟机部署算法&l

一种适用于Ad hoc网络的基于概率的负载均衡算法

简谐振子免疫优化算法求解异构无线网络垂直切换判决问题

基于位置敏感哈希的网络视频重复检测

一种适用于Ad hoc网络的基于概率负载均衡算法

云计算中基于TPM的多银行电子现金系统

Energy-efficient task scheduling model based on MapReduce for cloud computing using genetic algorith

一种基于社交网络的Sybil攻击防御

非奇H-矩阵的实用判别准则

融合安全的网格依赖任务调度双目标优化模型及算法

绿色计算背景下的网络管理研究

基于无线MEMS传感器的晶圆传输振动监测系统设计

支持云计算环境的MapReduce模拟器设计

采用混沌搜索技术对萤火虫算法优化研究

一种遥测数据短期预测方法

云计算环境下基于蜜蜂觅食行为的任务负载均衡算法

路径聚类融合USTU的自适应多通道生物特征识别研究

利用发送和接收时隙分配策略改善无线传感器网络MAC协议能效

基于能量模型的LS-TSVM在人体动作识别中的应用

云计算环境下兼顾买卖双方利益的双向拍卖资源分配算法

基于上下文感知分布式信标调度方案的V2VC拥塞控制

一种基于自适应空间信息改进FCM的图像分割算法

MANET中基于链路稳定性的链路状态QoS路由协议

基于被动信任反应机制的Adhoc网格网络恶意节点的检测和去除

基于时空几何流的Bandelet稀疏正则化在视频修复中的应用

基于云计算的WBAN中利用统计建模技术优化实时查询

多层序列规划的无线多跳网络能耗优化拓扑干预算法

利用ETX路由度量的无线Mesh网络协调机会路由协议

基于云计算的多路网络流媒体分布式最优存储与分配策略

一种适用于 Ad hoc 网络的基于概率负载均衡算法

基于混合高斯模型和空间模糊度的支持向量机算法研究

基于有限源排队系统的传感网络传输性能研究

基于平均序列SRC的视频人脸跟踪和识别研究

面部表情识别中基于TTL的特定个体学习模型

基于WIA-PA标准的农田信息传感网设计与实现

认知无线电网络中利用FEC和DE的多节点频谱感知算法

基于人工蜂群的无线传感器网络能耗均衡算法

基于多线程的AES-ECB改进设计与性能分析

基于改进ICA算法的实时任务容错调度机制

云计算中负载均衡优化模型及算法研究*

基于等价类划分的并行频繁闭项集挖掘算法

一种基于通信膜计算的拥堵道路收费模型

Construction of Short-Block Nonbinary LDPC Codes Based on Cyclic Codes

基于SCM模型的自适应医学图像融合方法

基于Hadoop的云存储系统研究与实现

期刊信息

《软件：教学》

主管单位:中国科学技术协会
主办单位:中国电子学会天津电子学会
主编：胡锦华
地址：北京市3105信箱
邮编：100044
邮箱：rjjxzz@126.com
电话：010-56174511

国际标准刊号：ISSN：1003-6970
国内统一刊号：ISSN：12-9203/TP
邮发代号:

获奖情况:

国内外数据库收录:
波兰哥白尼索引

被引量:305