面对互联网这一信息海量、交互性和社会化显著的新兴媒体,推荐系统已经成为互联网上辅助广大用户发现和获取信息的一种重要手段,其核心的推荐技术也成为了工业界和学术界广泛关注的研究问题。大部分推荐技术依赖于用户数据这一包含着群体性知识的数据资源,然而随着用户数据规模不断增大、信息愈加丰富,传统的推荐技术及其所依赖的基本假设都面临着很大的挑战,包括高维稀疏数据的相似度度量、特征空间的非线性和非独立性等问题。针对上述挑战,本课题拟以用户查询日志和社会标注数据这两类典型的用户数据为基本资源,以查询推荐和社会标签推荐为基本应用场景,研究基于度量学习和话题模型的相似度度量、基于流形的推荐模型以及基于异质网络随机行走的推荐模型来解决上述三方面问题。本课题的研究,能够帮助解决利用大规模用户数据进行推荐所面临的基本问题,进一步完善推荐技术,推动推荐系统在互联网中更为广泛有效的使用。
Recommendation Technology,;User Data;Sparsity;Non-linear;Non-independent
本项目研究基于大规模用户数据的推荐技术,针对其中所面临的数据高维稀疏、异质关联以及特征空间非线性带来的挑战,本课题从如下三个方面展开具体的研究工作并形成了多项重要的研究成果(1)高维稀疏数据的相似度度量从数据语义稀疏和特征稀疏两方面展开研究,通过话题建模、稀疏编码等手段,提高了高维稀疏数据相似度度量的准确性和有效性;(2)非线性特征空间中的数据推荐模型通过对用户数据进行流形建模,以及探索局部线性组合约束,解决了基于非线性特征空间的用户数据进行多样性推荐、特征学习等难题;(3)非独立富特征数据的推荐模型通过把用户数据建模为异质关联网络,利用动态贝叶斯网络和随机行走等图模型,以及新型排序学习模型,实现基于特征丰富、相互不独立的用户数据的推荐方法。围绕上述研究内容,本课题共计发表(或已被接受)文章33篇,包括期刊文章9篇,会议文章24篇。其中,在IEEE Transactions on Knowledge and Data Engineering, ACM SIGIR,NIPS,IJCAI, CIKM等国际顶级期刊、会议上发表论文21篇,在ACM CIKM 2011的长文论文获得该国际会议最佳论文奖,ACM SIGIR 2012论文获得该年会最佳学生论文奖。培养博士生7名,硕士生5名,申报专利2项。多项突破和阶段性成果超过了项目预期目标。