从事统计学与生命科学、信息科学的交叉研究及应用工作。在理论研究方面,申请者以统计模型为框架,推导出因果关系研究中混杂现象和混杂因子的量化定义及判断准则,结束了该领域长期以来因仅有定性结论而导致的两派争论;关于趋势性检验,首创了一种既能适于多种可能趋势,又能整合历史数据的方法,避免了前人工作中可能出现的偏性。在交叉研究领域,针对疾病基因定位,提出了系统的统计学方法来减少基因型测量误差给单倍型分析带来的严重影响;针对表观遗传调控,用统计学方法筛选出可能的调控因子并为生物学实验所证实;针对网络结构学习,提出了一种极优分解策略,极大提高了学习效率。在实际应用方面,研发的系统已被多省市大面积投入使用,节省了大量的人力、物力和财力。申请者因此而获得教育部科技进步二等奖两项、国家统计局科技进步一等奖一项,享受国务院政府特殊津贴,入选新世纪百千万人才工程国家级人选,多次应邀在国内外学术会议上作特邀报告。
Structural dimention reduction;Dimention reduction methods;Data-driven;Statistical inference;Text data mining
随着科技进步和社会经济的发展,作为记录信息载体的数据正以指数量级增长。如何管理和理解这些数据,已成为摆在各行各业面前的一种挑战。这些数据在‘量’上可用海量来形容,在‘质’上可用复杂来描述。针对这些海量复杂数据,我们开展了“数据驱动”的研究,以寻找和发现隐藏在数据背后的统计规律。在统计理论及方法上,研究了高维复杂数据的降维问题,主要是从‘数据降维’和‘结构降维’两个层面上展开,其中‘结构降维’是我们近年来系统提出的降维策略;在学科交叉上,建立统计模型去处理‘表观遗传调控’和‘全基因组关联分析’问题,取得了系列创新性成果;在统计应用上,将‘结构降维’思想应用于汉语文本数据挖掘,不仅发展了系列方法论,还将相关理论结果应用于长春、哈尔滨、石家庄等市长公开电话实际数据的处理,取得了良好的社会效益和经济效益。