前沿信息技术、生物技术、先进医疗设备与生物医用材料等国家中长期优先发展主题的研究和开发都需要处理高维复杂数据。本项目具体针对高等植物花形分子设计中数据维数极高、结构极为复杂的特点,建立若干关键低维稀疏逼近方法,并设计原创的、高精度的、高效率的算法。预期在压缩感知、数据稀疏表示与分解、流形上和基于核方法的降维、具有稀疏逼近性质的正则化重构方法等方面取得突破性进展,为高等植物花形的分子设计育种中建立理论依据和基本参数提供一套高效的低维稀疏逼近方法。 拟设立五个研究方向(1)基于压缩感知的稀疏采样和处理;(2)自适应信号基底构造与快速分解算法;(3)流形上和基于核方法的降维;(4)不完整稀疏采样数据重构的Proximity和机器学习方法;(5)低维稀疏逼近方法在植物花形分子设计中的应用。
plant molecular design;high dimensional complex data;sparse approximation;compressed sensing;machine learning
此项目针对植物花形分子设计中数据维数高、结构复杂的特点,研究相关的低维稀疏逼近数学理论和算法并应用于植物花形分子设计。项目取得一系列重要成果,包括提出了DNA和蛋白质序列比对算法HS-BLASTN和H-BLASTP/X,在计算结果与国际权威的MegaBLAST和NCBI BLAST一致的前提下,HS-BLASTN的运行速度比MegaBLAST最高快505倍,H-BLASTP/X的运行速度比NCBI BLAST快5-10倍;在基于压缩感知的信号稀疏表示和信号自适应快速分解方面,在最佳RIP常数,Vakman分析等取得重要原创性结果;在流形和基于核方法的降维方法方面,建立了基于系数正则化的支撑向量机回归方法和基于核的1-范数正则化回归算法;在稀疏机器学习方面,建立了1-范数可再生核巴拿赫空间理论并应用于稀疏SVM算法;在非光滑函数的优化问题求解方面,发展了基于迫近算子的不动点算法,并建立了其收敛性理论,从而揭示了著名的Bregman迭代法对一大类有应用意义的问题的不收敛性,同时提出了改进的方案。项目组应用上述部分数学理论和算法探究花发育的分子机理网络,初步提出了拟南芥花模式建成的分子机制。项目组成员在Inverse Problem,Applied and Computational Harmonic Analysis,Mathematics of Computation等期刊发表论文45篇,获得计算机软件著作权一项。项目完满地完成了预期研究目标。