针对传统特征抽取方法(非负矩阵分解NMF、主成分分析PCA和偏最小二乘PLS)产生的特征向量稠密或负值造成语义无法解释的问题,本项目拟应用有约束多变量优化和多元统计分析理论将这些方法的实现归结为不同约束条件下的优化问题,建立统一的数据非负稀疏特征提取框架,给出相应的理论分析证明。开展三种稀疏特征抽取模型的正交不相关性研究,并进行对比分析。建立不同特征抽取模型(稀疏PCA和稀疏PLS及正交、非负形式、稀疏NMF、正交稀疏NMF),结合有约束多变量优化算法的探讨,提出求解这些模型的改进算法,实现数据聚类和数据降维。使用文本、垃圾邮件数据进行聚类分析和模式分析,验证模型算法的有效性,根据试验结果进行性能评价。本项目研究成果可用于其它高维、稀疏和非负值数据的模式分析,为复杂数据的建模和优化探索新途径。
Sparse constraint;Logistic regression;Support vector machine;Graph regularized MNMF;Sparse signal processing
本项目针对高维数据建模时存在过拟合和模型系数非稀疏等问题,将统计学习理论中的正则化技术引入到机器学习算法中,就逻辑回归(Logistic Regression,LR)、支持向量机(Support Vector Machine,SVM)和最小均方(Least Mean Squares, LMS)算法提出一些改进形式,并给出相应的求解算法。对稀疏约束L0 范数、L1 范数、Lp 范数和平滑削边绝对偏离(Smoothly Clipped Absolute Deviation,SCAD)惩罚进行了系列探讨,提出自适应ε 律稀疏最小均方(LMS)算法和基于L0 的变步长IPNLMS 算法用于稀疏系统辨识。开展文本邮件过滤应用研究,采用Visual C++进行数据处理,提出使用Lasso 方法来进行词条选择。提出图正则化MNMF(Graph Regularized MNMF,GMNMF)算法,并设计了一个迭代的求解算法,将GMNMF 算法用于中文垃圾邮件过滤。建立稀疏逻辑回归模型,模型在进行参数估计的同时实现了变量选择,比较不同正则化约束项作用于逻辑回归模型在上市公司财务预警实证分析中的预报性能。对支持向量机的核函数进行分析讨论,使用能合理反映变量间复杂相关性的Q高斯函数构建Q高斯支持向量机模型,使用代价敏感支持向量机算法(2c-SVM 算法跟2v-SVM 算法)进行垃圾邮件过滤,使用不同的类别代价参数,来调节两类样本的误判率。针对传统支持向量机分类存在对离群点敏感、支持向量个数多和分类面参数非稀疏的问题,提出了平滑削边绝对偏离(Smoothly Clipped Absolute Deviation,SCAD)惩罚截断Hinge损失SVM (SCAD-TSVM),并将其用于构建财务预警模型,同时就该模型的求解还设计了一个迭代更新算法。基于稀疏理念,提出一种测试样本的二步表示方法用于人脸识别,先从各类中找出k个测试样本的相近样本,计算相近样本的加权和表示测试样本,将测试样本归于训练样本离测试样本偏差最小的那个类别。