传统的Web挖掘算法需要标定大量训练数据,这将会耗费大量的人力与物力。而没有大量的标注数据,会使得很多与学习相关研究与应用无法开展。针对Web 挖掘中训练数据获取难、训练数据过期以及大量富余数据无法充分利用等问题与挑战,本课题研究了迁移学习的基本原理,提出了谱迁移、翻译学习和结构化迁移学习等迁移学习理论研究,并针对Web 环境中排序、多语言学习、跨媒体学习以及分类等Web 挖掘研究中的关键问题,研究了新的迁移算法来解决上述Web 挖掘中的问题与挑战。本课题的研究推进了大范围Web 挖掘研究应用,减少Web 上数据标定人力与财力上的消耗,提高Web 挖掘研究的性能等方面都有非常重要的意义。进一步,机器学习的适应能力也达到了到一个新的层面,拓宽机器学习算法的普适化程度。
英文主题词Transfer Learning;Translated Learning; Heterogenous Transfer Learning; Web Mining; Cross-Media Learning