本项目研究领域适应性问题,发现源领域和目标领域数据的内部结构与分布,结合学习任务提出相应的领域自适应算法,并进行适应性推广能力(或称泛化能力)的理论分析与研究。主要包括研究区分领域整体和局部分布特征的描述方法以及分布获取方法;探索发现新的自适应学习算法,改进已有算法使之具备自适应推广能力,特别是研究独立于算法的提高自适应推广能力的策略;对算法的自适应推广能力进行量化研究,找出领域分布差异的度量、源领域误差、目标领域误差和学习算法自适应推广能力之间的关系。研制开发领域自适应学习系统,并获得软件著作权。力争在领域适应性问题方面取得突破,丰富机器学习理论,提供有效的领域自适应学习方法,并在实际问题中得到验证应用。在国内外学术会议、刊物发表高水平论文20篇以上,其中SCI收录8篇以上,重要的高水平国际会议8篇以上,丰富相关学术领域的研究成果,促进该领域的发展。
domain adaptation;self adaptation learning;generalization for adaptation;;
本项目研究了领域适应性问题,发现源领域和目标领域数据的内部结构与分布,结合学习任务提出相应的领域自适应算法,并进行适应性推广能力的理论分析与研究。 1.在理论上,采用狄氏分布方法提出了领域分布的形式化描述,给出定义领域不同程度与领域相似性的度量,把大间隔作为度量不同分布分离性的度量,用于主成分的理论分析和优化算法设计,相关论文以长文方式发表在AAAI2015上。 2.在算法层面,提出了基于超曲面分割样本空间的获取领域分布的具体方法,发表在FSS上;对给定的误差尺度,为了降低不同领域的分布差异性的领域,提出了基于自动编码机的监督表示学习用于领域自适应学习,相关论文发表在IJCAI 2015;还提出了一个生成统计模型——协同对偶PLSA(简称CD-PLSA)实现多个源领域和多个目标领域的领域自适应学习。自适应学习算法法相关论文发表在IEEETKDE上。为了解决原始特征上数据分布不同问题,提出了一般的概率统计模型来挖掘一致性概念,相似概念以及领域特有的概念这三种概念,并开发了一种EM算法进行求解。该项成果发表在人工智能顶级会议IJCAI 2013上。 3.提出了一个基于非负矩阵分解的泛化领域自适应学习框架,这一独立于算法的领域自适应学习算法可以应用于更多领域,相关论文发表在IEEE TRANSACTIONS ON CYBERNETICS上。 4.对已有的多任务、多视图的领域自适应学习算法,从理论上分析算法的适应推广能力和推广误差的上界,并在实际中用于指导算法的选择和使用,相关论文发表在CIKM’14。 总之,本项目系统深入研究领域适应性问题,发现源领域和目标领域数据的内部结构与分布,结合学习任务提出相应的领域自适应算法,并进行适应性推广能力的理论分析与研究。研制开发域自适应学习系统。在领域适应性问题方面取得突破,丰富机器学习理论,提供有效的领域自适应学习方法,并在实际问题中得到验证应用。在国内外学术会议ICDM2012、IJCAI13、WSDM13、 AAAI15、ICDE15、WWW14、ECAI14、CIKM15、ICDM15、IJCNN15和国际刊物IEEETKDE、IEEETOC、INS、NeuroCom、FSS发表了高水平论文60 篇以上,丰富相关学术领域的研究成果,促进了该领域的发展。