商业数据流具有海量性、动态性、漂移性等特性,而近年来基于商业数据流的挖掘研究,对于概念漂移和噪声处理考虑不足,对于概念漂移情境下数据流挖掘可靠性的关注不够,且不支持对数据流挖掘整个过程可靠性的系统分析。本课题以数据流特性明显、可靠性问题突出的商业领域为切入点,提出商业数据流特征描述与管理理论模型,为海量动态、漂移显著的商业数据流建立更为有效的数据模型;提出商业数据流概念漂移特征发现及噪声处理方法,为商业数据流环境下的概念漂移和噪声处理提供解决方案;提出融入漂移特征的商业数据流挖掘模型与方法,为漂移数据流的挖掘提供理论和方法支持;研究概念漂移情境下的商业数据流挖掘可靠性模型及可靠性优化方法,从而支持动态变化的商业数据流的可靠挖掘。项目成果可形成更符合数据流特性的数据挖掘方法和模型,改善商业等领域的数据流挖掘可靠性,从而推动数据流挖掘走向深层次应用。
business data stream;data mining;reliability;concept drifting;
商业数据流具有海量性、动态性、漂移性等特性,而近年来基于商业数据流的挖掘研究,对于概念漂移和噪声处理考虑不足,对于概念漂移情境下数据流挖掘可靠性的关注不够,且不支持对数据流挖掘整个过程可靠性的系统分析。本项目以数据流特性明显、可靠性问题突出的商业领域为切入点,展开了以下研究工作(1) 提出了商业数据流特征描述与管理理论模型,先后研究了基于隐半马尔科夫模型用户特征提取模型、基于支持向量机的分布数据挖掘模型、基于属性多叉树-贝叶斯网络的分布式客户序位模型以及基于地域因素的连锁商业分布式决策树分析模型,为海量动态、漂移显著的商业数据流建立了更为有效的数据模型;(2) 提出了商业数据流概念漂移特征发现及噪声处理方法,先后设计了关联规则的评价方法改进与度量框架、基于属性关联及属性匹配差异度的数据流异常检测方法以及偶合与主成份分析的数据流噪声消除机制方法,为商业数据流环境下的概念漂移和噪声处理提供了有效的解决方案;(3) 提出了融入漂移特征的商业数据流挖掘模型与方法,先后研究了基于粒计算的商业数据流概念漂移特征提取方法、概念漂移数据流的模糊积分集成分类挖掘方法以及基于情景特征的前馈动态集成分类器设计与实现技术。为漂移数据流的挖掘提供了理论和方法支持;(4) 研究了概念漂移情境下的商业数据流挖掘可靠性模型及可靠性优化方法,包括具有高可靠性的高性能挖掘算法的研究以及数据质量挖掘可靠性方法的研究等,从而支持了动态变化的商业数据流的可靠挖掘。通过本项目的攻关,共发表学术论文36篇,其中SCI收录期刊论文4篇,EI收录国外期刊论文11篇,EI收录国际会议论文3篇,国内权威期刊论文11篇,核心期刊论文7篇,授权发明专利4项,获取与挖掘技术相关的软件著作权10余项,培养博士研究生2名及硕士研究生10余名。项目所取得的研究成果形成了更符合数据流特性的数据挖掘方法和模型,进一步改善了商业等领域的数据流挖掘可靠性,并在信雅达、东软、快威等高科技企业进行实际应用,取得了较大的社会经济效益。