由于高斯过程能够很好地刻画数据中的依赖性和时间变化特性,它可更有效地应用于数据的回归分析和分类等方面。对于具有复杂结构的数据,我们则需要将若干个高斯过程组合起来形成一种更强的学习系统对其进行建模和分析。这种组合形式便是高斯过程混合体模型,现已应用到了许多重要的信息处理领域。然而,这种混合体建模方法依赖于高斯过程(即分量)个数的正确选择。这就是所谓的模型选择问题。在某些特殊情况下,数据中的高斯过程的个数是已知的或可观察到的。但在多数情况下,它却是未知的,或难于直接判定的,而需要按照一定的理论与方法进行模型选择,即从对数据的学习中确定出分量个数。目前,人们对于高斯过程混合体的模型选择问题还缺乏理论上的分析和探索。本项目运用随机数学和学习理论与方法对这一模型选择问题进行深入分析和研究,解决其关键问题并建立有效的模型选择判定准则和学习算法,并将其应用到自动曲线检测和非线性时间序列预测等方面。
Statistical learning;Model selection;Mixture of Gaussain processes;EM algorithm;Stochastic simulation
高斯过程混合体或混合模型是一种重要的概率模型,已被广泛地应用到信号和信息处理领域中。然后,由于高斯过程的复杂性和样本之间的相关性,这种混合模型的参数学习是非常困难的,还未发现有效的学习算法。另外,这种建模方法更依赖于高斯过程(即分量)个数的正确选择,即存在所谓的模型选择问题。在一般情况下,数据中的高斯过程的个数是未知的,则需要按照有效的理论与方法从数据中学习和确定,但还没有针对高斯过程的模型选择准则。本项目运用现代数学和统计学习理论与方法对高斯过程混合体的参数学习和模型选择问题进行深入分析和研究,解决其关键问题并建立有效的参数学习算法和模型选择准则及机制,并将其应用于实际信息处理中。通过四年的努力,本项目已顺利完成,主要取得了下列研究成果(1). 建立了系统的硬分割EM算法,并将其拓展到稀疏高斯过程混合体模型上。另外,根据随机模拟抽样的理论建立了基MCMC的EM算法;(2). 提出了同步平衡模型选择准则,并在逆跳马尔可夫链蒙特卡罗框架下建立了一种自动模型选择算法;(3). 针对复杂曲线检测问题,提出了双层高斯过程混合体和参数学习算法;(4). 将新的理论和算法应用和拓展到图像分割、目标识别和曲线检测中。目前,本项目已完成论文35篇,发表论文30篇,并编写了2个软件系统。这些成果具有重要的理论意义和应用价值。