现实应用领域中的数据流概念漂移现象具有隐含、未知、易变以及多重性等特点,使已有的机制、模型与方法难以满足用户对精确度、时空性能等方面的要求。因此,如何快速有效地发现所隐含的概念漂移特征,设计鲁棒性模型和有效算法成为研究数据流中概念漂移问题的重要任务。本课题重点开展基于漂移特征发现的数据流概念漂移问题研究。通过深入分析数据流特点研究特定的概念形式化描述方法,探索概念漂移特征与隐式上下文中相关因素的定性或定量关系及其描述,寻求快速有效的漂移特征发现与预测方法,研究基于漂移特征的概念漂移检测算法和模型,构建适于数据流环境的概念漂移度量标准与评价体系。此外,为降低数据流中噪音与数据分布不平衡所导致的对概念漂移发现质量的影响,开展基于漂移特征的噪音建模、噪音检测、噪音过滤以及数据(类别)分布倾斜度调节策略与方法的研究。在上述工作基础上,设计并实现面向Web服务应用领域的概念漂移问题求解原型系统。
Data Stream;Classification;Concept Drift;Multi-source Data Stream;Feature Selection
项目围绕基于特征发现的数据流概念漂移这一问题及相关应用进行研究。研究成果涉及六个方面高维数据流特征降维方法研究、数据流概念建模与数据流概念漂移检测与发现算法研究、数据流中的频繁项集、序列模式挖掘研究、多源数据流的迁移学习与知识挖掘问题研究、分布式环境下数据流挖掘与安全问题研究以及应用研究。三年的研究所取得的成果统计如下 1)已发表/录用SCI检索论文5篇; 2)已发表/录用国际国内会议论文23篇(其中8篇发表在ICDM、ICML、PAKDD、 AAAI、ICTAI、GRID等顶级国际会议上); 3)已发表/录用国内重要核心期刊论文4篇 (分别发表在软件学报、自动化学报、计算机研究与发展、模式识别与人工智能杂志上); 4)已获得的项目 a)在此项目研究工作的基础上,课题主持人胡学钢教授成功获批1项国家自然科学基金面上项目资助(No.61273292); b)在此项目研究工作的基础上,课题组成员吴共庆副教授成功获批1项国家自然科学基金青年基金项目(No. 61005044)和1项国家自然科学基金面上项目资助(No.61273297); c)在此项目研究工作的基础上,课题组成员张玉红讲师成功获批1项安徽省自然科学基金青年基金课题资助(No. 1208085QF122); d)在此项目研究工作的基础上,课题组成员郭丹博士后获得第51批中国博士后科学基金面上资助二等资助(No. 2012M511403); 5)专著、软著、专利 a)专著1项(预计2013年6月在清华大学出版社正式出版); b)软著2项(数据流分类算法实验工具包软件 ETDSV1.0登记号为2010SR062895;数据流分类原型系统[简称PSDSC]V1.0登记号为2012SR050219); c)专利授权1项 (专利号ZL 2010 1 0257693.4.), 专利在申请1项;