位置:成果数据库 > 期刊 > 期刊详情页
基于序列标注模型的分层式依存句法分析方法
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:0
  • 页码:14-22
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院自动化研究所模式识别国家重点实验室,北京100190
  • 相关基金:国家自然科学基金资助项目(60975053 60736014); 国家863计划资助项目(2006AA010108-4)
  • 相关项目:基于语言理解的机器翻译方法研究
作者: 鉴萍|宗成庆|
中文摘要:

该文提出了一种全新的分层式依存句法分析方法。该方法以依存深度不大于1的依存层作为分析单位,自底向上构建句子的依存结构。在层内,通过穷尽搜索得到层最优子结构;在层与层之间,分析状态确定性地转移。依存层的引入,使该模型具有比典型的基于图的方法更低的算法复杂度,与基于转换的方法相比,又一定程度上缓解了确定性过程的贪婪性。此外,该方法使用典型序列标注模型进行层依存子结构搜索,证明了序列标注技术完全可以胜任句法分析等层次结构分析任务。实验结果显示,该文提出的分层式依存分析方法具有与主流方法可比的分析精度和非常高的分析效率,在宾州树库上可以达到每秒2 500个英语单词。

英文摘要:

A layer-based projective dependency parsing approach is presented.This novel approach works layer by layer in a bottom-up manner,in which the depth of token dependency is allowed no more than one.Inside the layer the dependency graphs are searched exhaustively while between the layers the parser state transfers deterministically.Taking the dependency layer as the parsing unit,the proposed parser has a lower computational complexity than graph-based models which search for a whole dependency graph,alleviating the error propagation in transition-based models to some extent.Furthermore,our parser adopts the sequence labeling models to find the optimal sub-graph of the layer,which demonstrates the sequence labeling techniques qualified for hierarchical structure analysis tasks.Experimental results indicate that the proposed approach offers desirable accuracies and especially a very fast parsing speed,with 2500 words per second for Penn Treebank.

同期刊论文项目
期刊论文 10 会议论文 26 专利 2
期刊论文 77 会议论文 94 专利 4 著作 2
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136