传统的机器学习(Machine learning)研究着重于相对简单的数据形式。在本项目中,我们考虑的数据有着更复杂的结构,例如序列形式,而相应的学习目标则是能够对这类有复杂结构的数据进行预测。同时,我们希望利用在实际应用中大量存在的未标号数据来提高算法的预测性能。因此,本项目的主要目标即为发展有效、高效的针对结构化数据的非监督/半监督学习(unsupervised/semi-supervised learning)算法。 为了完成此目标,我们提出一系列方案,包括探索不同的训练标准及其对非监督/半监督结构化学习性能的影响;从优化的角度提高算法的性能等。在此基础上开展相应的应用研究,包括生物序列分析,语音识别,自然语言处理等。
Unsupervised learning;semi-supervised learning;structured learning;;
在国家自然科学基金青年基金项目的资助下,我们对结构化数据的非监督/半监督学习问题以及一些相关引申展开了深入研究,并对相关应用进行了探索,共发表标注基金资助文章6篇,其中SCI期刊1篇、EI期刊与会议文章5篇,包括发表于机器学习与数据挖掘顶级会议NIPS及ICDM的高质量工作,超额完成任务。总的来说,在本项目的资助下,课题组在多种结构化数据非监督/半监督学习方法及相关应用等方面均取得了较好的成果。