东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于卡方分布的高维数据相似性连接查询算法

ISSN号：1001-9081
期刊名称：《计算机应用》
时间：0
分类：TP311.13[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]洛阳师范学院信息技术学院,河南洛阳471022, [2]中原经济区智慧旅游河南省协同创新中心,河南洛阳471022
相关基金：国家自然科学基金资助项目（61501216,61272015）; 河南省科技攻关计划项目（152102210332,152102210331）; 中原经济区智慧旅游河南省协同创新中心2015年度开放课题（2015-ZHLV-009）

关键词：相似性连接查询, 高维数据, 卡方分布, p-稳态分布, 召回率, similarity join query, high-dimensional data, chi-square distribution, p-stable distribution, recall

中文摘要：

为了解决高维数据相似性连接查询中存在的维度灾难和计算代价高等问题,基于p-稳态分布,将高维数据映射到低维空间。根据卡方分布的性质,证明了如果低维空间的距离大于kε,则原始空间距离大于ε的概率具有一定的下界,从而可以在低维空间以较低的计算代价进行有效过滤。在此基础上,提出了基于卡方分布的高维数据相似性连接查询算法。为了进一步提高查询效率,提出了基于双重过滤的高维数据相似性连接查询算法。利用真实数据集进行了实验,实验结果表明所提方法具有较好的性能。基于卡方分布的相似性连接查询算法召回率可以达到90%以上。基于双重过滤的相似性连接查询算法可以进一步提高性能,但是会损失一定的召回率。对时间性能要求比较高、对召回率要求不太严格的查询任务可以采用基于双重过滤的相似性连接查询算法;反之,可以采用基于卡方分布的相似性连接查询算法。

英文摘要：

To deal with the curse of dimensionality and costly computation problems existed in high-dimensional similarity join query, the high-dimensional data were mapped to low-dimensional space based on p-stable distribution. According the definition of chi-square distribution, a theorem was proved： if the distance of two points in low-dimensional space is greater than kε, the probability that the distance of two points in original space is greater than ε has a lower bound. So the effective filtering can be performed at relative low cost in the mapped space. A novel chi-square distribution-based similarity join query algorithm on high-dimensional data was proposed. In order to further improve the query efficiency, another similarity join query algorithm based on double filtering was also proposed. Comprehensive experiments were performed. The experimental results show that the proposed approaches have good performance. The recall of the chi-square distribution-based similarity join query algorithm is larger than 90%. The double filtering based similarity join query algorithm can further improve the efficiency, but it will lose some recall rate. Chi-square distribution based similarity join query algorithm is suitable for the query tasks which are critical of the query performance but not critical of the recall; otherwise, the similarity join query algorithm based on double filtering is favorable.

同期刊论文项目

面向领域本体的多源异构数据聚合和语义标注关键技术研究

期刊论文 4

基于虚拟社区的移动流媒体服务关键技术研究

期刊论文 2

　高压变电站与云数据中心共站危险影响及电磁防护关键技术与应用

期刊论文 86

同项目期刊论文

Training Robust Support Vector Machine Based on a New Loss Function

广义近似空间的拓扑性质

基于最小描述的覆盖粒计算模型

Modeling and Optimization of Bandwidth Supply Performance for Cloud-Assisted Video Systems under Flash Crowd

泵站水泵吸水室内水动力学特性分析

基于蒙特卡洛模拟的电池储能系统容量优化配置

基于储能电池的光伏功率波动平抑策略

储能电池平抑风功率波动策略

基于光强传输方程的非干涉相位恢复与定量相位显微成像：文献综述与最新进展

基于光强传输方程的多模式成像

傅里叶叠层显微成像技术：理论、发展和应用

结合极线约束和散斑相关的实时三维测量方法

校企合作构建项目化实践教学考核评价标准

科学哲学融入科学教师教育刍论

环境犯罪的刑事立法缺陷和完善研究

大陆去台配偶权益保障问题研究

微信移动平台在“临床检验基础＂课程上的应用

改革开放以来我国生态文明建设的发展历程

放疗物理师创新人才培养模式探索

跨文化背景下的“和美语文”阅读教学策略初探

高异黄酮大豆的遗传育种及其应用研究进展

不同构造木框架剪力墙受力性能试验研究

钱币主题游戏活动对提高幼儿金钱概念与金钱使用能力的研究

国产高分辨率遥感影像融合方法比较与分析

基于改进粒子群算法的船舶发电机选型优化研究

微课在医学临床教学中的应用进展

任务型教学模式在医学英语教学中的应用

意杨旋切板胶合木材料的物理力学性能

高硫尾砂胶结充填试验研究

矿渣在尾砂胶结充填中的应用与研究进展

双膦酸盐相关性非典型骨折的研究进展

公共领域内公民道德意识构建的路径探析

广东省交通科技项目征集与遴选机制研究

一种自适应区域融合规则多聚焦图像融合算法

引企入校校企共建生产性实训基地的实践与思考

项目化教学在临床基础检验课程中的应用

“生态位”视域下卓越会计人才培养方案研究——以上海理工大学为例

小学儿童反语理解能力的发展及教育启示

以“盐卫金域医学检验所”为平台,构建“检教合一·项目驱动”的实践教学体系

“互联网＋”时代高校图书馆转型与服务创新新常态研究

基于规则格网的区域资源环境承载力测度与综合评价模型

广东省交通科技示范工程管理机制研究

移动学习在医学辅助教学中的应用进展

新常态下广东省交通科技创新制度体系总体设计研究

一种新型斜爬轨道式擦窗机轮压值仿真优化

个性化健康教育在川崎病患儿中的应用

基于节能目标的泵站进水池体形优化设计

基于数据分析下的初中数学复习课教学探索与反思——以《与圆有关的位置关系》复习课为例

基于GIS的违法建筑管理研究与应用

菱形连翼布局俯仰力矩非线性特性数值分析

ArcGIS制图表达的图库一体化数据到AutoCAD制图数据的全要素转换研究

法治教育的概念辨析

藏族传统综合材料雕塑——布塑类雕塑研究

房地产开发投资对经济增长的影响——基于河南省数据的实证分析

“第六产业”发展及其化工技术支撑

耦合多螺旋桨滑流影响的低雷诺数机翼设计

车用电涡流缓速器制动过程的动力学仿真

基于太阳能飞机应用的低雷诺数翼型研究

基于非定常面元/黏性涡粒子法的低雷诺数滑流气动干扰

基于工作过程的微生物检验项目化教学实践与探索

品味教材旁白追求真实自然——对人教社A版“点到直线的距离”过程性教学设计的思考

意杨旋切板胶合木柱的蠕变性能

以学生为主体的床边教学在外科学教学中的应用研究

“课岗对接、课证融合、执业能力递进”课程体系的构建和实践——以江苏医药职业学院临床医学专业为例

交通行业科技信用管理问题及对策

小学儿童妒忌情绪的发展及对任务坚持性的影响

医院参与高等卫生职业院校课程改革的有效途径研究——以盐城卫生职业技术学院医学检验技术专业为例

广东交通运输科技研发平台体系建设的现状与对策研究

不同关系情境下语句搭配和反语类型对小学生反语理解的影响

气压高度计的测量误差分析及修正方法

提升高职学生药学服务能力的教学体系构建研究

基于“高分一号”数据的地理国情普查DOM制作研究

稀少控制条件下的高分辨率卫星影像区域网平差

基于CFD/CSD耦合的连结翼静气动弹性计算研究

宋以前《伤寒论》中“桂枝”名实考

高中文理科学生数学学习差异研究

突出数学核心素养着眼学生能力发展——2016年全国数学卷（Ⅱ）试题特点分析

基于学生管理视角的大学英语分层教学研究

可拓层次-集对分析耦合模型在边坡稳定性评价中的应用

高分辨率遥感影像圆特征提取算法研究

试论“四个全面”战略布局的内在逻辑关系

我国装配式建筑项目实施影响因素研究

桂枝去桂加茯苓白术汤方证辨析

现代学徒制在医学检验技术专业课程中实践应用与探索

生源多元化视角下高职外语考核评价机制重构原则及思路

“互联网＋”背景下高职院校英语教师发展面临的危机及对策

内地高校新疆少数民族学生政治社会化研究——基于上海11所高校的调查

幼儿金钱概念与金钱使用能力的发展

江苏省基层全科医生岗位胜任力研究

期刊信息

《计算机应用》
北大核心期刊（2011版）

主管单位:四川省科学技术协会
主办单位:四川省计算机学会中国科学院成都分院
主编：张景中
地址：成都市人民南路四段九号科分院计算所
邮编：610041
邮箱：xzh@joca.cn
电话：028-85224283

国际标准刊号：ISSN：1001-9081
国内统一刊号：ISSN：51-1307/TP
邮发代号:62-110

获奖情况:
全国优秀科技期刊一等奖,国家期刊奖提名奖,中国期刊方阵双奖期刊,中文核心期刊,中国科技核心期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:53679