东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

一种相似重复记录检测算法的改进研究

ISSN号：1673-629X
期刊名称：《计算机技术与发展》
时间：0
分类：TP311.5[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]合肥工业大学管理学院,安徽合肥230009
相关基金：国家自然科学基金项目（70871033）

作者：戴颖[1], 李兴国[1], 赵启飞[1]

关键词：相似重复记录, 增量式, 聚类树, 等级法, approximately duplicate record, incremental, clustering tree, ranked-based method

中文摘要：

相似重复记录检测是数据清洗领域中的一个重要方面。文中研究了在数据模式与匹配规则不变的前提下,数据集动态增加时近似重复记录的识别问题,针对基于聚类数算法精度不高、效率低下等问题提出一种改进算法。该算法运用等级法给属性赋予相应权重并约减属性,通过构造聚类树对相似记录进行聚类,增设了一个阈值以减少不必要的相似度比较次数,提高了算法的效率和准确率。最后通过实验证明了该算法的有效性,并提出了进一步的研究方向。

英文摘要：

Cleaning approximately duplicate records is an important task in data cleaning.Problems of detecting approximately duplicate records when the data set is dynamically increased on the assumption of stable data model and matching rules are studied.An improved method is proposed to deal with problems in the method based on clustering tree.The proposed method appoints proper weight to each field of the record and reduces attributes through using ranked-based weights method;clusters duplicate records by creating a clustering tree.To improve the efficiency of this method,a limen is added into the arithmetic.Finally,the validity of this method is proved by experiment and further research directions are proposed.

同期刊论文项目

商务智能中的动态数据挖掘与分形技术的研究

期刊论文 57 会议论文 14 著作 1

同项目期刊论文

连续属性上的OLAP查询建模方法研究

数据流中随机型分形维数计算方法研究

云计算环境下动态虚拟企业伙伴选择模型

基于改进的经验模态分解的时间序列匹配算法

A novel statistical time-series pattern based interval forecasting strategy for activity durations i

An efficient method for improving query efficiency in data warehouse

Service-oriented partner selection process model and algorithm for dynamic virtual enterprise

Stock trend prediction based on fractal feature selection and support vector machine

基于动态数据流挖掘的案例推理及其应用

数据流时间窗口中闭频繁项集的在线挖掘

基于本体的组合预测预警系统模型

基于维分类的关联规则的元规则制导挖掘

基于相空间重构的股价时间序列相关性分析

基于EMD与交叉覆盖算法的个人信用的评估

案例决策技术及案例决策支持系统研究综述

在线挖掘数据流混合窗口中闭频繁项集

支持扩展QoS约束的动态虚拟企业伙伴选择模型

基于案例推理的ISP知识重用方法

SQL Server 2005数据挖掘技术在证券客户忠诚度的应用

基于Web服务架构的动态虚拟企业伙伴选择

一种新的数据流分形聚类算法

基于案例推理和多策略相似性检索的中医处方自动生成

K-means与朴素贝叶斯在商务智能中的应用

灰度关联理论在CBR中的应用研究

案例知识库维护技术的研究进展

基于ACV约束的序列模式挖掘算法

基于密度和分形维数的数据流聚类算法

A market-oriented hierarchical scheduling strategy incloud workflow systems

一种基于趋势分形维数的股指时间序列相似性分析方法

一种改进的分形优化算法

集合上封闭立方体的计算

用户兴趣驱动的冰山数据立方体构建及更新方法研究

基于EMD与K-means算法的时间序列聚类

基于移动网格和密度的数据流聚类算法

分形技术在案例库维护中的应用

联系发现在证券客户划分中的应用研究

基于分形维数和蚁群算法的属性选择方法

基于决策树的模糊聚类评价算法及其应用

案例推理在汽车故障诊断中的应用

一种提高数据仓库查询效率的有效方法

A novel general framework for automatic and cost-effective handling of recoverable temporal violatio

基于密度与分形维数的数据流聚类算法

一种检测兴趣漂移的图结构推荐系统

基于多目标蚁群优化的知识即服务动态组合策略

基于属性重要性的贪心算法的改进算法

基于QFD和Kano模型的供应商选择方法

覆盖约简算法在Captcha识别方面的应用

客户行为的有效聚类

空箱优化调运问题的混合PSO-SA算法

电力配网辅助决策系统研究

共同代理理论与第三方物流

K—means与朴素贝叶斯在商务智能中的应用

基于分治策略和蚁群算法的最大团问题的研究

基于遗传算法的网格任务调度方法研究

期刊信息

《计算机技术与发展》
中国科技核心期刊

主管单位:陕西省工业和信息化厅
主办单位:陕西省计算机学会
主编：王守智
地址：西安市雁塔路南段99号
邮编：710054
邮箱：ctad@vip.163.com
电话：029-85522163

国际标准刊号：ISSN：1673-629X
国内统一刊号：ISSN：61-1450/TP
邮发代号:52-127

获奖情况:
《CAJ-CD规范》执行优秀期刊

国内外数据库收录:
中国中国科技核心期刊

被引量:21263