大规模Web社会网络的飞速发展不仅为国家经济、文化和信息服务带来新的机遇,也为数据挖掘和社会网络分析带来新的挑战。传统的社会网络挖掘研究主要侧重数据本身,而忽略了社会网络内在的时序动态性和多维关联性(如用户间的动态影响、网络关系的多样性以及用户行为的不确定性)。本项目以Web社会网络的动态建模与分析为目标,拟从四个方面展开研究(1)基于话题的社会影响力动态建模和量化方法;(2)社会网络关系的多维时序关联分析;(3)结合行为偏差、社会影响以及行为关联的用户行为不确定性建模方法;(4)面向大规模社会网络的并行挖掘工具包。课题实现的并行社会网络挖掘工具包将开源用于科学研究。本课题结合Web社会网络理论、数据挖掘方法和大规模并行计算,探索推动互联网先进技术成果服务于大众、促进信息资源的分享和可持续利用的新方法新途径。
Social Network Mining;Social Influence Analysis;User Behavior Modeling;Social Tie Analysis;
社交网络的快速发展构建了网络化、数字化、虚拟化的生活和工作环境,已经渗透到经济发展、国家安全和人民生活的众多方面。本项目针对大规模Web社会网络,研究网络动态建模与分析关键技术。项目研究工作进展顺利, 已经达到预期研究目标,尤其在社会影响力、社会关系分析和网络用户行为建模方面取得了突出成绩,为今后更高水平的研究工作奠定了的基础。项目研究成果在国内外重要学术会议和期刊上录用和发表论文 49篇,其中ACM/IEEE Transaction和CCF A类国际会议/期刊文章19篇,SCI期刊13篇,共5篇论文获得期刊和会议奖,相关论文的Google Scholar引用次数459次,发表在数据挖掘权威学术会议SIGKDD 2011和SIGKDD 2012上的论文引用次数在该会议当年发表的所有文章中分别排名第6。相关技术还在国际竞赛(如ICDM 和Multimedia)上多次获得第一名,申请发明专利3项,授权2项,获得软件著作权5项,增强了项目组在社交网络分析及其相关领域的学术影响。本项目组还成功主办了数据挖掘权威学术会议SIGKDD 2012,扩大了中国社会网络分析和数据挖掘在国际上的学术影响。在理论研究的基础上,本项目还研发了社会网络分析与挖掘平台SAE(Social Analytic Engine),并将其开源发布;基于该平台研发的研究者社会网络搜索与挖掘ArnetMiner系统截止目前已有220个国家432万独立IP访问。项目关键技术和应用系统已经为全球最大学术期刊出版社Elsevier、以及SIGKDD 2010-13、ICDM 2011-13等20余个重要国际会议提供分析服务,同时还在与华为、埃克森美孚、IBM、Google、通用汽车、腾讯、百度、搜狐等企业的合作项目中得到推广,研究成果还在自然基金委的智能指派系统中得到应用,应用效果显著。在人才培养方面,本项目组组长获得国家首届自然科学优秀青年基金项目、2012中国计算机学会青年科学家奖、2011北京市科技新星;项目组成员一名获得国家博士后基金一等资助(前5%)、优秀博士后,两人获得清华大学优秀硕士毕业论文,一人获得清华大学本科生特等奖学金,两人获得CCF优秀大学生,七人次获得北京市、清华大学优秀毕业生和毕业论文。