海量高维数据的计算复杂度随着其维数的增加呈指数增长,在实际应用中容易造成"维数灾难"问题,确定海量高维数据的本征维数以简化计算是信息处理技术中最基础、最重要的问题之一,至今尚未很好解决。本项目针对海量高维农业数据的快速降维处理问题,采用经典的AIC、BIC、CAIC准则对影响本征维数判别的因素进行分析并给出各种参数对本征维数估计结果的影响规律;利用证据理论的相关研究成果,研究建立具有自适应特点的模型估计准则融合方法,以提高各种模型对不同观测数据进行本征维数估计时的适应性;将SVD理论引入到海量高维农业数据的本征维数估计之中,提出一种"粗略估计+精确判断"相结合的快速实现海量高维数据本征维数估计的新算法,在保证算法运行速度的同时进一步提高估计结果的准确性以及鲁棒性。该问题的研究不仅是一个重要的理论问题,也是一个与实际应用密切相关的课题,该问题的研究结果对精准农业的快速发展具有重要的推动作用。
intrinsic dimension estimation;high dimensional data;dimension reduction;principle component analusisi;sparse representation
源于线性空间的海量高维数据本征维数估计方法是数据维数约简的重要手段和基本方法。分别以大米籽粒、板栗、植物叶片、杂草、非结构化道路、苹果等常见农业图像为研究对象,利用概率PCA理论,针对海量高维农业数据的快速维数约简问题,探讨了AIC、BIC、CAIC等不同模型选取准则以及样本容量n、噪声方差、观测数据维数d、本征维数q等模型参数对高维数据本征维数估计的影响规律;通过PCA、曲线拟合、稀疏表示理论等技术手段,提出了一种“粗略估计本征维数区间和精确判断”相结合的本征维数估计方法,解决或部分解决了本征维数的初始区间分布问题、本征维数的快速估计问题;采用C4.5数据挖掘算法对杂草多特征向量进行了特征挖掘并识别,验证了将数据挖掘技术应用于特征维数约简的有效性和可行性;运用轮廓波理论,克服了噪声对本征维数估计精度的影响;以苹果目标作为研究重点,结合Convex Hull理论所具有的稀疏性特点,对受到遮挡、重叠影响的苹果目标进行了处理,实现了去除伪轮廓及轮廓曲线的高精确度提取;利用Convex Hull顶点密度这一特征进行目标轮廓的系数表达,结果表明将Convex Hull理论应用于高维数据的维数约简具有降低运算量、提高维数约简精度的效果;促进了高维数据运算中某些问题的解决,发表或录用论文18篇(EI检索12篇),软件著作权1项,参加学术会议3次。