东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于外存后缀树的top-k局部比对算法

ISSN号：0254-4164
期刊名称：计算机学报
时间：0
页码：-
分类：TP301[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
作者机构：东北大学信息科学与工程学院,沈阳110004
相关基金：国家“九七三”重点基础研究发展规划项目基金（2012CB316201）、国家自然科学基金（61572122,61173031,61129002,61532021,U1401256）、国家优秀青年科学基金（61322208）资助.
相关项目：社会网络中多元约束条件下的隐私保护关键技术研究

关键词：局部比对, TOP-K, 外存后缀树, 叉子区域, local alignment, top-k , external suffix tree, fork area

中文摘要：

局部比对是一种衡量字符串间相似程度的技术,它在生物信息学领域具有十分重要的作用.介于此,许多学者已对其进行了深入的研究.然而,随着数据规模的扩大,常规的内存算法已不适用于支持大规模文本数据的局部比对.为解决上述问题,该文研究了基于外存后缀树的top-k局部比对算法.它从根本上消除了内存空间对算法的束缚.为了提高算法的性能,该文首先将经典内存算法中的过滤策略引入该文.通过适当的修改,这些策略可以基于外存后缀树有效地降低计算开销.其次,该文提出一种巧妙的算法支持top-k局部比对查询.该算法通过引入启发式策略有效规避了TA算法的固有问题.具体地,它一方面可以提高算法的过滤能力,另一方面可以降低候选对象的维护代价.再次,该文对外存后缀树和磁盘的工作原理进行了研究.基于此,该文提出一种槽的结构支持查询.该结构既可以实现磁盘的顺序访问,又可以降低磁盘的访问次数.因此,它可以有效提高算法的查询效率.最后,大量的实验验证了该文所提出算法的有效性.

英文摘要：

Local alignment is a common technique for finding a pair of highly similar substrings from two given sequences, which is very important in the biological information field. With the enlargement of data scale, the state of arts memory-based algorithms are not suitable for answering local alignment when handling long text data. In this paper, we study the problem of local alignment top-k query over external suffix tree. It could break the bottleneck limited by the memory space. In order to avoid unnecessary computing cost, we firstly employ a series of filtering strategies based on the classic memory-based algorithms. Via property amending them, these algorithms could effectively enhance the performance of our solution. We then propose a novel algorithm for answering top-k query local alignment over external suffix tree. It empolies the heuristic strategy for avoiding the defect of TA-algorithm. For one thing, it could provide a powerful threshold for filtering. For another, it could efficiently reduce the candidates maintainance cost. Then, we deeply study the operational principle of external suffix tree and disk. As the basis, we propose several techniques for optimizing external memory accessing. The results of the experiments on the real genetic data demonstrate the effectiveness of our algorithms.

同期刊论文项目

社会网络中多元约束条件下的隐私保护关键技术研究

期刊论文 25 会议论文 13 获奖 3

面向物联网搜索的隐私保护理论和关键技术

期刊论文 16

面向多源信息的实体分析与识别技术

期刊论文 31 会议论文 20 获奖 2

溯源驱动的弱可用性轨迹数据管理关键技术

期刊论文 5

数据库理论与系统

期刊论文 10

同项目期刊论文

基于图自同构的K-Secure社会网络隐私保护方法

防止路径攻击的加权社会网络匿名化技术

基于 Grid 网格划分的改进路网最短路径查询

一种支持约束关系的高效的行程规划算法

基于属性权重的实体解析技术

障碍空间中保持位置隐私的最近邻查询方法

社会网络数据发布隐私保护技术综述

基于位置的社会网路的K-连接安全分组匿名方法

基于Grid网格划分的改进路网最短路径查询

大数据环境下支持概率数据范围查询索引的研究

路网环境下基于位置服务的隐私保护方法

增量的动态社会网络匿名化技术

Obtaining k-obfuscation for profile privacy in social network

A secure K-automorphism Privacy Preserving Approach with High Data Utility in Social Networks

基于时间约束的人气最优路径搜索

支持动态图数据的子图查询方法

Memory-Aware BWT by Segmenting Sequences to Support Subsequence Search

基于变化的服务演化一致性判定

最小化解释Why-Not问题

一种支持约束关系的高效的行程规划算法

Detecting Copy Directions among Programs Using Extreme Learning Machines

一种空间高效的多核并行近似子串匹配算法

海洋多模态数据世系原型系统

基于属性权重的实体解析技术

基于缓存技术的路网最短路径查询

Negative Factor: Improving Regular-Expression Matching in Strings

障碍空间中保持位置隐私的最近邻查询方法

大数据环境下支持概率数据范围查询索引的研究

路网环境下基于位置服务的隐私保护方法

增量的动态社会网络匿名化技术

基于时间约束的人气最优路径搜索

一种空间高效的多核并行近似子串匹配方法

海洋多模态数据世系原型系统

基于缓存技术的路网最短路径查询

大数据环境下支持概率数据范围查询索引的研究

路网环境下基于位置服务的隐私保护方法

基于时间约束的人气最优路径搜索

面向压缩生物基因数据的高效的查询方法

一种空间高效的多核并行近似子串匹配方法

Approximate Continuous Top-k Query over Sliding Window

大数据环境下支持概率数据范围查询索引的研究

基于时间约束的人气最优路径搜索

面向压缩生物基因数据的高效的查询方法

Approximate Continuous Top-k Query over Sliding Window

面向MAX/MIN优化的SQL Window函数处理

大数据环境下支持概率数据范围查询索引的研究

基于时间约束的人气最优路径搜索

面向双层传感网的隐私保护k-NN查询处理协议

统计粗糙集

群智感知激励机制研究综述

面向压缩生物基因数据的高效的查询方法

Approximate Continuous Top-k Query over Sliding Window

基于中国剩余定理的智能电表身份认证方案

ALFHJ：一种面向众核协处理器的自适应无锁哈希连接算法

云服务中数据完整性验证技术综述

基于隐语义模型的中医在线辅助诊疗系统

云存储完整性验证密码学技术研究进展

面向海量低质手机轨迹数据的重要位置发现

基于函数依赖与条件约束的数据修复方法

期刊信息

《计算机学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国计算机学会中国科学院计算技术研究所
主编：孙凝晖
地址：北京中关村科学院南路6号
邮编：100190
邮箱：cjc@ict.ac.cn
电话：010-62620695

国际标准刊号：ISSN：0254-4164
国内统一刊号：ISSN：11-1826/TP
邮发代号:2-833

获奖情况:
中国期刊方阵“双效”期刊

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:48433