人工标注语料库是自然语言处理统计建模的主要知识源。语料库的构建通常需要语言学工作者付出大量的劳动,昂贵且耗时。然而对许多语言来说,却存在着严重的资源浪费现象,即同一自然语言处理任务存在着多个不同标注标准的人工语料库。因此,提出一种自动化的融合或转换算法,既能将不同标注标准的语料库知识融合起来,又能将语料库从一种标注标准转为另一种标准,从理论和实践角度都具有重要的意义。该问题可形式化为标注标准迁移问题,本提案为标注标准迁移提出一种高效且通用的迁移策略,用于将不同标注标准的知识融合起来(标准融合)或将一种标注标准的知识转换为另一种标准(标准转换)。我们设计出判别式的统计模型,以自动地学习不同标注标准之间的融合和转换规律。该工作既可以整合不同语料库以搭建更高精度的自然语言处理分析器,又能够为语言分析和语料库构建提供统计层面的启示,最终有助于推动整个统计自然语言处理的发展,更好地为社会服务。
英文主题词annotation guideline;transfer learning;annotated corpus;;