现时的检索技术虽然已能提供一定的图像检索功能,但需要一个有效的分类方法来建立索引,可是互联网上海量且时刻递增的图像让手工分类变得不现实。此时只需要小量由专家提供已分类图像然后能自动为其它未分类图像进行分类的智能方法便有很大的需求。机器学习中的研究表明支持向量机(SVM)能够有效地把图像分类,可是SVM的训练需要一个已分类的训练样本集,用什么特征来描述图像和可否筛选出相对较少但对SVM训练最有帮助的样本子集也是一个关键问题。针对上述分析,本项目将提出一个基于优化SVM局部泛化误差的方法来同时选择输入特征和训练样本,并整合成一个自动图像分类原型系统。当给定一个图像分类问题后,通过删除对SVM局部泛化能力影响比较小的特征来挑选对描述当前图像分类问题最有用的特征子集;另一方面,挑选产生最大局部泛化误差的图像加入到训练集中,期望使用最少的已分类图像来训练SVM解决图像分类问题。
Image Classification;Feature Selection;Sample Selection;Support Vector Machines;
针对本项目的图像类问题中的主要研究问题,本项目组提出了基于局部泛化误差模型的特徵和样本选择方法及SVM训练方法。有效提升了现有的分类器的泛化能力及减轻了分类器对人工挑选参数等的依赖。当给定一个数据库后,本项目的方法通过删除对局部泛化误差影响最小的特徵来得到一个对分类最有效率的特徵子集,即数量少而泛化分类能力高的子集。另一方面,通过局部泛化误差模型中的敏感度分析,本项目的方法从没标注的样本中挑选少部份查询标注并加入到训练样本集中,不单减少了对人工标注样本分类信息的需求,更提升了分类器的泛化能力。最后,本项目提出了一个SVM自动训练方法,让SVM通过最小化局部泛化误差来自动挑选最优的训练参数以提升泛化能力。综合而言,本项目的完成对机器学习领域的贡献主要为提供了新的方法及思维,通过最小化局泛化误差这统一的框架来挑选特徵和样本及训练SVM。