东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于Map Reduce的序列模式挖掘算法

ISSN号：1000-3428
期刊名称：《计算机工程》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]山东师范大学信息科学与工程学院,济南250014, [2]山东省分布式计算机软件新技术重点实验室,济南250014, [3]山东警察学院公共基础部,济南250014
相关基金：国家自然科学基金资助项目（60873247）; 山东省自然科学基金资助项目（ZR2009GZ007）

关键词：云计算, 并行处理, MAP, Reduce模型, PREFIXSPAN算法, 序列模式, HADOOP平台, cloud computing, parallel processing, Map Reduce model, PrefixSpan algorithm, sequential pattern, Hadoop platform

中文摘要：

传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间。采用Reduce函数对中间结果进行规约,得到全局序列模式。在Hadoop集群上的实验结果表明,MR PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性。

英文摘要：

Traditional data mining algorithm has computing power shortage in dealing with mass data set.Aiming at the problem,a distributed sequential pattern mining algorithm based on Map Reduce programming model named MR PrefixSpan is proposed.Mining tasks are decomposed to many,the Map function is used to mine each Prefix projected sequential pattern,and the projected databases are constructed parallelly.It simplifies the search space and acquires a higher mining efficiency.Then the intermediate values are passed to a Reduce function which merges together all these values to produce a possibly smaller set of values.Experimental results on Hadoop cluster show that MR PrefixSpan can reduce the time of scanning data base,has higher parallel speed up ratio and better expansibility.

同期刊论文项目

基于模糊遗传算法的网络信息特征分析与过滤算法研究

期刊论文 97 会议论文 20 专利 2

同项目期刊论文

基于Q学习的适应性进化规划算法

Adaptive Evolutionary Programming based on Reinforcement Learning

基于改进PrefixSpan的序列模式挖掘算法

一种结合反馈信息的贝叶斯分类增量学习方法

结合信息熵的多Agent网络安全审计模型

基于AdaBoost的最小风险贝叶斯的垃圾邮件过滤算法

基于Bagging的聚类集成方法

Research on Information Retrieval System Based on Ant Clustering Algorithm

SCTWC: An Online Semi-supervised Clustering Approach to Topical Web Crawlers

基于Windows日志的安全审计技术研究

一种Deep Web爬虫的设计与实现

改进的模糊C-均值聚类算法研究

Creating ensembles of classifiers with deflection

基于网格的TCP网络日志二次聚类算法

基于FCM的两级集成分类器算法

针对不平衡数据集的Bagging改进算法

基于场论的聚类算法

基于感知器的SVM自学习模型

标记错分样本的AdaBoost算法

数据集动态重构的集成迁移学习

决策树构建方法:向前两步优于一步

基于级联结构的不平衡数据集分类研究

不平衡数据集的神经网络阈值优化方法

超节点P2P网络中一种有效的缓存策略

Feature-denoising based on average fitness of genetic population

一种改进的基于遗传禁忌优化的NB算法

Email Representation using Noncharacteristic Information and its Application

Research of feature weights adjustment based on Semantic paragraphs matching

Feasibility research of text information filtering based on genetic algorithm

改进的访问统计方法及对用户兴趣度的计算

结合特征和非特征信息改进Na(i)ve Bayes及其应用

应用于垃圾邮件过滤的词序列核

应用于入侵取证的改进信息增益算法

一种基于矩阵的强关联规则生成算法

基于分类的半监督聚类方法

基于遗传算法的文本过滤模型及收敛性分析

基于核的k-medoids分类器的参数选择方法

Text summarization method applying vocabulary combination into sentence extraction

Text Representation Combining Syntax in Vector Space Model

强不可否认的指定验证者代理签名方案

Hybrid filtering model based on particle swarm optimization and genetic algorithm

基于细分变异算子策略的遗传算法

高效的无证书签名方案

基于最大熵模型的评价搭配识别

结合模糊聚类的遗传算法在网络信息过滤中的应用

山东省中小学信息技术教育情况调查与分析

基于双线性对的无证书签名与群签名方案

用于不均衡数据集分类的KNN算法

关联规则中频繁项集高效挖掘的研究

基于量子遗传算法的文本特征选择方法研究

基于退火遗传算法的网络信息过滤系统研究

自适应遗传算法在特征选择中的改进及应用

一种新的应用于文本特征子集优化的GATS算法

基于语义神经网络的文本特征选择方法的研究

一种基于改进Rocchio的网络信息过滤反馈算法研究

有关循环图C(n;{1,k})的独立数的一些结果(英文)

应用特征项分布信息的信息增益改进方法研究

一种基于语义特征的逻辑段落划分方法及应用

支持审计与取证联动的日志系统设计

Semi-supervised fuzzy clustering: a kernel-based approach

Research On E-mail Filtering Based On Improved Bayesian

主题Web挖掘研究

基于最近邻原则的半监督聚类算法

基于AdaBoost的欠抽样集成学习算法

支持向量回归参数调节及应用研究

The New Risk Assessment Model for Information System in Cloud Computing Environment

Proxy signature scheme with a semi-trusted third party

向量空间模型中结合句法的文本表示研究

集成学习的多分类器动态组合方法

基于核的最小距离分类法的参数选择方法

k-means算法的研究与改进

一种基于核函数分割数据集的分类器组合算法

一种基于信息熵的多分类器动态组合方法

一种挖掘频繁项的新方法

信息过滤中基于统计与规则的关键词抽取研究

云取证模型的构建与分析

基于排序索引矩阵的频繁项集挖掘算法

一种改进的混合蛙跳算法

结合特征和非特征信息改进NaiveBayes及其应用

基于自适应惯性权重的混沌粒子群算法

一种基于极性词典的情感分析方法

基于模拟退火的样本加权FCM算法

改进的模糊遗传算法及在信息过滤中的应用

融合扩展信息瓶颈理论的话题关联检测方法研究

高精度自适应的四边形网格重建

基于关联规则挖掘的网络安全审计技术研究

基于日志的安全审计系统研究与实现

结合角点特征与SIFT特征的加速图像匹配

邮件过滤中特征选择方法的性能评价与分析

基于速度增长的微博热点话题发现

一种新的自适应动态文化粒子群优化算法

期刊信息

《计算机工程》
北大核心期刊（2014版）

主管单位:中国电子科技集团公司
主办单位:华东计算技术研究所上海市计算机学会
主编：游小明
地址：上海市桂林路418号
邮编：200233
邮箱：ecice06@ecict.com.cn
电话：021-64846769

国际标准刊号：ISSN：1000-3428
国内统一刊号：ISSN：31-1289/TP
邮发代号:4-310

获奖情况:
1999～2000、2001～2002年度信息产业部优秀期刊奖,2003-2004、2005-2006年度信息产业部电子精品科技...,2007-2008、2009-2010年度工业和信息产业部电子精...,012年度中国科技论文在线优秀期刊一等奖,2013年度中国科技论文在线优秀期刊二等奖

国内外数据库收录:
俄罗斯文摘杂志,美国化学文摘（网络版）,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:84139