近年来大量的基因组和蛋白质组序列、结构和功能数据不断增加,使得采用数据驱动的方法来解决蛋白质序列-结构-功能映射问题成为可能。生物序列和自然语言之间存在一定的相似性。大量语料库的出现推动了计算语言学的发展,同理,大量的蛋白质序列-结构-功能数据的出现,使得计算的方法和信息技术得以应用于此领域中。本项目将采用计算语言学的工具包括统计语言模型、文本分类技术、机器学习算法以及更高层的语言处理方法来理解细胞中蛋白质的结构和功能。通过将自然语言处理的相关技术引入到生物信息学中,针对蛋白质结构和功能预测的相关问题采用新的计算手段,简化蛋白质结构和功能预测的模型,提高蛋白质结构和功能预测的精度,进而推动蛋白质序列-结构-功能映射问题的发展。项目的研究在生物医学、人类生活、生产实践等方面都有着极为重要的意义。
protein sequence;natural language processing;structure prediction;function prediction;
项目采用自然语言处理的相关技术和方法解决蛋白质结构和功能预测的问题。通过将自然语言处理的相关技术引入到生物信息学中,针对蛋白质结构和功能预测的相关问题采用新的计算手段,简化蛋白质结构和功能预测的模型,提高蛋白质结构和功能预测的精度,进而推动蛋白质序列-结构-功能映射问题的发展。项目揭示了蛋白质序列的语言特征;提出了多种蛋白质同源性检测方法;实现了基于自然语言处理技术的蛋白质结构预测和功能预测方法,取得了良好的结果。项目的研究在生物医学、人类生活、生产实践等方面都有着极为重要的意义。