本项目基于国内外公开提供的生物数据库,提出了新的计算机方法和理论以便在蛋白质组层次构建蛋白-蛋白相互作用网络。研究了(1)多个数据库的集成方法,提出从含有噪音比例各异的不完备数据中进行加权集成的方法和反馈更新权重的方法;(2)蛋白相互作用和诸多相关特征之间的关系,应用集成学习方法和半监督学习思想研究特征之间的独立/依赖关系,依据和蛋白相互作用相关的强弱程度提出对特征进行加权的集成预测方法;(3)域相互作用的识别和应用,整合性应用多种机器学习方法,突破多事例学习要求"事例"之间相互独立的限制,和解决"包"中的部分"事例"有标签这个难题;(4)网络基序识别算法,以高效地发现网络基序,并应用于新的蛋白功能确定和相互作用网络的构建。
英文主题词protein-protein interaction; ensemble learing; domain; multi-instance learning; network motif