本项目研究数据的分析与处理中涉及的数据的同步聚类、非线性降维与低维重建和数据噪音的降减与数据预处理。我们尝试用数值代数的手段和方法,研究和提供解决这些问题的矩阵算法。同步聚类方法的研究,将为数据特征提取提供更加有针对性应用更灵活的分析手段。高维混乱数据的非线性降维或低维重建,可使复杂数据易于分析处理和有序化。数据噪音的降减能使数据信息更明显,分析结果更具真实与准确性。这三方面的研究成果有着广泛而重要的应用背景,如文本挖掘、信息检索、数据可视化、疾病的基因检测、生物信息分析,等等。本项目的研究,对于丰富信息处理的理论、方法和实用算法,有重要的理论和实际意义,也有助于相关学科色发展。
本项目研究离散数据的非线性降维与流形学习问题的矩阵算法。在理论分析与数值算法上取得了重要的进展和具有国际影响力的系列性成果,提出了创新性算法LTSA,被认为是最好的方法之一。在Isomap的连续问题、LLE的稳定性与改进(Isomap与LLE均发表在《Science》上)、基本性的邻域自适应选取、曲率自适应修正、数据聚类自动模型选择、稀疏低秩逼近、特征子空间计算、约束最小二乘问题等方面取得了丰富成果,共发表(或接受发表)13篇SCI、3篇EI(controlled terms)、4篇顶级国际会议论文,成果大大超出原定预期。大部分成果发表在SIAM J. Scientific Computing、IEEE Transactions on Knowledge and Data Engineering、SIAM J. Matrix Analysis and Applications、Advances in Neural Information Processing Systems (NIPS)等重要国际刊物上。对于丰富信息处理的理论、方法和实用算法,有重要的理论和实际意义,有助于相关学科发展