文本多粒度关系抽取半监督自适应学习的研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

文本多粒度关系抽取半监督自适应学习的研究

项目名称：文本多粒度关系抽取半监督自适应学习的研究
项目类别：青年科学基金项目
批准号：61202135
申请代码：F020509
项目来源：国家自然科学基金
研究期限：2013-01-01-2015-12-31

项目负责人：陈一飞
依托单位：南京审计学院
批准年度：2012

中文摘要：

自动提取文本中的语义关系是文本挖掘和机器学习的重要研究内容。本项目旨在构建多粒度关系抽取的半监督自适应学习方法，可在拥有少量已标注样本和大量未标注样本的前提下，自动提取不同层次的多类别复杂相互关系，并将此学习方法应用于生物文本中的蛋白质相互关系抽取中。项目的主要研究内容包括（1）构建一个改进的启发式快速半监督支持向量机学习方法，为高效、可规模化的多类分类半监督学习增加新的研究内容；（2）提出自适应分类模型，利用主动学习对半监督学习的优化，进一步提高半监督学习的性能和效率；（3）深入研究提取复杂文本中描述关系的全局和局部特征，融合多粒度的先验知识，提出统一的多粒度学习框架。同时，这个框架也可以应用于其他有大量未标注样本和多粒度信息抽取的领域。（4）将理论模型应用于蛋白质相互关系抽取的文本挖掘研究中，建立多粒度、多类别关系的自动提取系统，是解决生物学问题的新方法，具有很高理论和实用价值。

中文主题词：文本挖掘；多粒度关系抽取；半监督学习；自适应学习；支持向量机

结论摘要：

英文主题词text mining；multi-granularity relationship extraction；semi-supervised learning；adaptive learning；support vector machines

成果综合统计