结构化机器学习能从有丰富内在结构的数据中学习结构化假说,它已成为人工智能和知识处理的最重要研究领域之一,其研究具有重大理论意义和应用价值。结构化机器学习研究已取得较大进展,但还存在如下不足缺乏面向大规模、异构、不完备关系数据和动态系统的高效、可扩展的模型和学习方法;大多数学习和推理算法研究是相互分离的;不能充分运用现有理论成果解决相关新问题;缺少结构化社会网络学习方法等。本项目拟重点研究大规模关系数据的多层次/混合模型,迁移学习方法,统计谓词发现方法,针对序列决策、不完备关系数据的学习方法,学习和推理深度结合的方法;面向大规模、动态、异构网络数据高效、可扩展、增量式协作/半监督分类和链接预测算法;高效的社会网络结构化学习方法。本项目的实施对深化人工智能研究,推进结构化机器学习在生物信息学、社会网络分析、Web挖掘和搜索等领域的应用具有十分重要的意义。
Structured Machine Learning;SRL;Probabilistic ILP;Probabilistic Logic Learning;Network Data Mining
近年来,许多学者开始关注内部相关或相连的“结构化数据”的研究。随着应用领域的不断延伸和数据规模的急剧增长,急需针对大规模、动态结构化数据,具有可扩展性和增量学习能力的新型、高效结构化学习模型和方法,特别是针对网络这类最重要、最广泛的结构化数据的新型挖掘和分析方法。据此,本项目围绕结构化机器学习模型和方法、面向网络的结构化机器学习新方法,以及模型和方法的验证与应用开展研究,取得如下成果 1、结构化机器学习—支持向量机与贝叶斯网。对面向支持向量机(SVM)和贝叶斯网的结构化机器学习进行了深入研究。1) 针对SVM本身存在的缺陷及其应用于复杂决策问题效果不佳等问题,提出一组具有强泛化能力的模型,包括基于粗糙集特征选择的SVM模型、基于局部Fisher判别分析的SVM模型、高效的三阶段混合SVM预测模型和基于多目标群智能框架的SVM模型等。2) 贝叶斯网推理和学习提出应答多重查询精确推理算法、基于回溯和基于分治的启发式搜索算法;提出基于蜜蜂进化型多种群进化策略的结构学习算法和基于混沌双种群进化策略的增量学习算法。 2、结构化机器学习—复杂网络社区发现与分析。从马尔科夫动力学、谱聚类分析、大偏差理论、混合随机块模型等方面对复杂网络社区结构进行了深入研究。1) 首次将复杂网络簇结构分析与随机过程的动力性结合起来研究,提出基于马尔科夫链亚稳性的复杂网络簇结构谱分析理论。2) 提出复杂网络多元结构模式识别问题和算法。提出用于定义和建模多元模式的多尺度模块模型;在贝叶斯概率推断框架下,提出复杂网络多元模式识别算法。3) 提出多种复杂网络社区结构识别新方法,包括基于自组织、自适应多Agent系统的分布式网络社区挖掘方法,基于随机网络集成模型的广义网络社区挖掘算法,基于约束扩散动力学模型的重叠社区挖掘方法等。 3、结构化机器学习—智能决策与信息融合。面向农业信息化、疾病监控与诊断、信息融合等领域进行了应用研究。提出基于贝叶斯网的农作物病虫害主动和动态诊断,基于复杂网络聚类多神经网络集成的精准施肥,基于时空信息的流行病传播网络建模与推断,基于贝叶斯网的选择性增量式信息融合等方法。本研究发表论文81篇,其中SCI期刊论文14篇,EI收录65篇;获发明专利授权2项,软件著作权5项。上述研究成果,在社会网络分析、贝叶斯网、支持向量机和智能决策等方面推进结构化机器学习有重要意义。