社会网络是由行动者连接而成的网状关系结构,是多种社会现象的表示模型。社会网络划分是进行社会网络分析的基础。社会网络通常是多关系异构的,缺乏大量训练数据,相关数据容易过时。基于这种背景,传统划分方法无法获得良好效果。本课题基于迁移学习思想,构建异构多关系异分布社会网络划分模型;利用谱聚类算法能在任意形状的样本空间上聚类且收敛于全局最优解的优势,提出增量式多路联合异构谱聚类算法进行多关系异构社会网络划分。研究内容①借鉴迁移学习思想,提出异构多关系异分布社会网络划分模型。②摆脱星型网络结构约束,获取直接邻接对象属性值,量化表征聚簇对象重要度。③提出动态确定最优聚类k值的通用多路联合异构谱聚类算法,克服聚类过程中需预设聚类数的缺陷。④实现算法的增量式计算,使算法能够处理拥有大规模数据的社会网络划分任务。本课题为异构社会网络挖掘技术的进一步研究与应用提供新方法和理论依据。
multirelational social network;machine learning;multi-way partition strategy;spectral clustering;social network security
本课题基于迁移学习思想,构建异构多关系社会网络划分模型;利用谱聚类算法能在任意形状的样本空间上聚类且收敛于全局最优解的优势,提出增量式多路联合异构谱聚类算法以此提高多关系社会网络的划分速度和精度。课题分为数据准备、网络划分、成果应用三部分,在数据准备阶段提出的模型和算法有基于高斯过程的虚拟样本生成方法、基于加速迭代的大数据谱聚类算法、基于社区节点重要性和结构冗余性的社会网络压缩方法、大数据典型相关分析的云模型方法等。网络划分方面提出的模型和算法包括基于归属不确定的变规模重叠社区识别算法、基于拓扑势的社区结点重要度排序算法、基于结构稳定性校准的在线式社区识别方法、基于随机游走的多关系社会网络社区识别方法、基于时序感知的社会网络节点集情境聚合方法、基于秩2更新的多维数据流典型相关跟踪算法、基于代表点的分布式数据流聚类算法、基于SPA的多数据流同异反分析方法、基于前缀树的数据流容错概要结构构造方法、数据流选择性集成两阶段动态融合方法、交叉验证容噪分类算法等。成果应用方面提出的模型和算法为基于敏感属性值语义桶分组的t-closeness隐私模型、基于聚类的社会网络数据匿名方法、基于社区的移动互联网混合蠕虫遏制系统等。除上述研究外,还开展了以下相关研究社会网络轨迹信息匿名方法、LDA的语义并行化建模方法、演化聚类技术等。