论证体篇章“结构与语义”协同分析模型及算法研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

论证体篇章“结构与语义”协同分析模型及算法研究

项目名称：论证体篇章“结构与语义”协同分析模型及算法研究
项目类别：专项基金项目
批准号：61240036
申请代码：F020603
项目来源：国家自然科学基金
研究期限：2013-01-01-2013-12-31

项目负责人：钟茂生
负责人职称：副教授
依托单位：华东交通大学
批准年度：2012

中文摘要：

随着自然语言词语、句子级处理研究的不断深入，篇章级结构和语义自动分析问题, 越来越引起学术界的关注。现有的篇章结构分析没有充分利用篇章语义信息作为驱动，而篇章语义知识的获取也很少利用篇章结构信息作为支持，这种各自独立而缺乏协作的结构分析和语义获取方式，是使得篇章结构和语义分析精度都不理想的一个重要原因。本课题根据篇章结构和语义之间原本存在的相互依存、相互影响关系，以汉语论证体篇章为研究对象，以篇章语言学理论为基础，从文章作为"信息系统"的系统观点和论证体篇章具有的逻辑论证特点出发，借鉴协同理论中的协同作用思想，来进行论证体篇章的结构与语义协同分析。课题探索汉语篇章结构与语义之间相互协作、逐步求精的分析模型与算法，将有望根本上提高篇章结构分析和篇章语义分析的精度，由此为改进文献自动摘要和文献复制检测算法的效果、更好地实现汉语篇章语义理解、篇章话语生成和辅助语言学习等研究奠定基础。

中文主题词：篇章结构；篇章语义；篇章理解；协同分析；

英文摘要：

discourse structure；discourse semantic；discourse understand；collaborative analyzing；

英文主题词： discourse structure；discourse semantic；discourse understand；collaborative analyzing；

结论摘要：

篇章结构和语义自动分析，就是用计算机来分析文章内部的各个组成部分和文章的组织结构模式，以及获取篇章内部不同级别语言单位的所指语义。准确的篇章结构和篇章语义自动分析结果，可以有效地实现篇章自动理解，也能够改进文本自动摘要和论文复制检测算法的精度，并对文本快速浏览和过滤、文献讲义自动生成、计算机辅助语言学习、话语生成等任务的实现起着重要的作用。早期自然语言理解研究中，由于语言本身的非结构化和模糊性特点，加上篇章又是语言处理和理解中结构颗粒最大的对象，因此篇章的结构和语义自动分析研究非常困难，也研究得较少。课题组在国家自然科学基金科学部主任基金“论证体篇章‘结构与语义’协同分析模型及算法研究”（61240036）项目的支持下，对“论证体篇章结构的形式抽象表示方法和篇章级语义的知识表示方法”和“论证体篇章的组织结构与语义结构之间协同分析的模型与算法”两方面进行重点研究，获得了如下研究成果（1）用正则表达式形式对论证体篇章结构进行了形式化的描述、修改和扩充，给出了篇章组织结构、篇章语义结构和篇章逻辑论证结构的形式抽象表示方法和三者之间的转换框架；（2）提出了基于生物序列比对算法和基于Na？ve Bayes模型的文本篇章结构分析方法，分析论证体篇章的组织结构模式；（3）针对中文文本篇章术语自动抽取方法中低频术语和术语的术语性（termhood）指标缺乏有效处理问题，引入C-value方法，提出了词语领域分布度与有效词频的概念，实现篇章文本内部的术语抽取任务；（4）针对篇章文本中问句的相似度计算准确率较低问题，提出了一种基于主题和焦点的中文问句相似度计算方法，实现问句的相似度计算；（5）针对传统的基于词频统计的文本语义相似度计算不准确问题，提出了一种基于“实体-属性-属性值”(E-A-V)结构相似度的概念图匹配算法，实现对篇章的语义分析；（6）设计了基于篇章组织结构、篇章语义结构和篇章逻辑论证结构的篇章结构与篇章语义的协同分析算法。在项目基金的支持下，已发表论文3篇（其中EI期刊论文1篇，CSSCI期刊论文1篇，核心期刊论文1篇），已录用论文2篇（均为核心期刊），已投搞论文2篇，待投稿论文1篇；以该课题研究内容为背景，正在培养12级研究生两名；建设和标注了一个约500篇文本（约300万字）的篇章分析语料库；参加国内会议7人次。通过课题组成员的努力，已完成项目预期目标。

成果综合统计

成果类型

数量

期刊论文
会议论文
专利
获奖
著作

期刊论文

基于主题和焦点的问句相似度计算方法

基于有效词频的改进C-value自动术语抽取方法

基于卫星云图的风矢场度量模型与算法探讨

基于E-A-V结构的概念图匹配算法

基于序列比对算法的文本层次结构分析方法

汉语篇章主位推进模式自动识别方法