自然语言处理经历了几十年的发展,分析的对象从字、词、短语到句子,自然而且必然地进入了篇章这一层面。在统计自然语言处理思想和语料库语言学盛行的今天,随着宾州篇章树库的发布,学者们开始尝试借助各种机器学习方法,通过对篇章关系的标注来解释篇章结构,引发了篇章结构分析的热潮。但是,由于篇章问题的复杂性,篇章关系分析的核心部分- - 隐式关系的判别,其准确率没有超过50%。这也是篇章分析处于起步阶段的最好证明。本项目首先将矛头指向这一难题。汉语方面,目前最大的问题是没有大规模的篇章语料库, 严重制约了汉语篇章的研究和应用。而篇章语料库的标注又无疑是一项难度大、费时费力的工程。在本项目中,我们希望借助汉英双语平行树库这一资源,通过对英语端的篇章分析,来得到汉语的篇章关系标记。无论将获得的汉语篇章语料作为种子语料,还是视其为一种篇章标注的框架,都将是未来构建大规模汉语(甚至其它语言)篇章语料的便捷途径。
英文主题词discourse analysis;discourse annotation;bitext projection;machine translation;