自动提取文本中的语义关系是文本挖掘和机器学习的重要研究内容。本项目旨在构建多粒度关系抽取的半监督自适应学习方法,可在拥有少量已标注样本和大量未标注样本的前提下,自动提取不同层次的多类别复杂相互关系,并将此学习方法应用于生物文本中的蛋白质相互关系抽取中。项目的主要研究内容包括(1)构建一个改进的启发式快速半监督支持向量机学习方法,为高效、可规模化的多类分类半监督学习增加新的研究内容;(2)提出自适应分类模型,利用主动学习对半监督学习的优化,进一步提高半监督学习的性能和效率;(3)深入研究提取复杂文本中描述关系的全局和局部特征,融合多粒度的先验知识,提出统一的多粒度学习框架。同时,这个框架也可以应用于其他有大量未标注样本和多粒度信息抽取的领域。(4)将理论模型应用于蛋白质相互关系抽取的文本挖掘研究中,建立多粒度、多类别关系的自动提取系统,是解决生物学问题的新方法,具有很高理论和实用价值。
英文主题词text mining;multi-granularity relationship extraction;semi-supervised learning;adaptive learning;support vector machines