位置:立项数据库 > 立项详情页
基于数据固有结构的稀有事件预测分析
  • 项目名称:基于数据固有结构的稀有事件预测分析
  • 项目类别:青年科学基金项目
  • 批准号:70901002
  • 申请代码:G0112
  • 项目来源:国家自然科学基金
  • 研究期限:2010-01-01-2012-12-31
  • 项目负责人:吴俊杰
  • 负责人职称:副教授
  • 依托单位:北京航空航天大学
  • 批准年度:2009
中文摘要:

稀有事件如信用卡欺诈、财务困境、设备故障等是企业长期关注的管理难题,其突发性和破坏性可能给企业带来难以估量的损失。在实践需求的推动下,稀有事件预测研究迅速成为数据挖掘领域的热点问题,大量应用导向型算法被陆续提出,并取得了不错的效果。尽管如此,对于影响稀有事件预测精度的重要因素之一- - 数据固有结构,人们仍然缺乏清晰的认识;已有算法在面对具有复杂数据结构的训练样本时,也常常表现不佳。有鉴于此,本项目研究基于数据固有结构的稀有事件预测系统。具体而言,本项目首先研究数据固有结构对稀有类分析的影响机理,以及它和样本不均衡性的联合作用机理,然后在此基础上设计针对数据固有结构以及数据不同稀缺程度的稀有类分析算法,最后设计并实现以该算法为核心的稀有类分析决策支持系统,并尝试在金融领域做应用及案例研究。本项目的研究将为我国稀有事件预测和管理的理论及实践领域提供有益参考。

结论摘要:

由于问题的普遍性和复杂性,稀有类分析在商务智能领域长期占据了特别重要的位置。在传统的商务问题中,信用卡预测和网络入侵检测等就是典型的稀有类分析问题。随着Web 2.0的蓬勃发展,社会媒体及社会化商务纷纷涌现,稀有类分析在诸如在线商品评论托攻击识别、海量微博情感分析等前沿领域迅速成为核心问题之一。本项目立足于设计数据挖掘算法识别海量复杂数据中的固有结构,然后基于数据的固有结构建立准确高效的稀有类分析模型及系统,并应用于上述传统及前沿商务问题。课题组成员在为期三年的研究中取得如下重要研究成果1)通过识别大规模复杂数据的局部结构和边界结构,设计了新颖的稀有类分析算法,取得很好的应用效果并成为稀有类分析的新分支之一;2)在大数据的聚类结构、关联结构和连接结构挖掘方面,开展了一系列理论和算法的创新研究,形成了体系化的研究成果,并在国际主流学术阵地获得发表;3)基于上述成果对社会网络信息扩散、在线商品评论托攻击检测以及海量微博情感分析等热点领域展开研究,成果除高水平学术论文外还有上线系统,在国内外学术及工业界取得较大反响。上述成果已形成25篇标注课题资助的学术论著获得发表,其中22篇中课题负责人为第一作者(含学生第一、本人第二作者)或通讯作者。论著包括1本Springer Berlin出版的英文专著、1篇美国《SCIENCE》专刊论文、16篇SCI检索期刊论文(含4篇影响因子3.0以上的IEEE Transactions论文、1篇数据挖掘领域最顶级期刊DMKD论文)、2篇数据挖掘领域顶级会议ACM KDD论文,在数据挖掘与商务智能领域具有广泛影响力。另有2个系统应用平台已在网上发布,其一为“国际会议管理信息系统”,另一为“新浪微博舆情分析平台”,获得学术界和工信部等政府机构的广泛关注,并取得了后续重点项目支持以取得落地成果。基于上述工作,课题负责人获评“教育部新世纪优秀人才”(2011)并应邀成为微软亚洲研究院“Star Track”访问学者;建立了“社会计算与社会舆情分析中心”并担任执行主任;被教育部人文社科重大基地、清华大学现代管理研究中心聘为校外研究员(为信息管理方向唯一获聘校外副教授,其余均为正教授);常态担任KDD、《Management Science》等顶级会议和期刊的审稿专家;协助指导了5位博士生,其中已毕业2位已在中央财经大学等高校任教。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 22
  • 5
  • 0
  • 0
  • 1
相关项目
期刊论文 14 会议论文 1 专利 4 著作 2
期刊论文 7 会议论文 8
期刊论文 62 会议论文 79 著作 3
吴俊杰的项目
期刊论文 31 会议论文 13 著作 1