篇章结构分析及基于双语投射的篇章标注方法研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

篇章结构分析及基于双语投射的篇章标注方法研究

项目名称：篇章结构分析及基于双语投射的篇章标注方法研究
项目类别：青年科学基金项目
批准号：61202244
申请代码：F020601
项目来源：国家自然科学基金
研究期限：2013-01-01-2015-12-31

项目负责人：鉴萍
依托单位：北京理工大学
批准年度：2012

中文摘要：

自然语言处理经历了几十年的发展，分析的对象从字、词、短语到句子，自然而且必然地进入了篇章这一层面。在统计自然语言处理思想和语料库语言学盛行的今天，随着宾州篇章树库的发布，学者们开始尝试借助各种机器学习方法，通过对篇章关系的标注来解释篇章结构，引发了篇章结构分析的热潮。但是，由于篇章问题的复杂性，篇章关系分析的核心部分- - 隐式关系的判别，其准确率没有超过50%。这也是篇章分析处于起步阶段的最好证明。本项目首先将矛头指向这一难题。汉语方面，目前最大的问题是没有大规模的篇章语料库, 严重制约了汉语篇章的研究和应用。而篇章语料库的标注又无疑是一项难度大、费时费力的工程。在本项目中，我们希望借助汉英双语平行树库这一资源，通过对英语端的篇章分析，来得到汉语的篇章关系标记。无论将获得的汉语篇章语料作为种子语料，还是视其为一种篇章标注的框架，都将是未来构建大规模汉语(甚至其它语言)篇章语料的便捷途径。

中文主题词：篇章分析；篇章标注；双语投射；机器翻译；

结论摘要：

英文主题词discourse analysis；discourse annotation；bitext projection；machine translation；

成果综合统计