位置:成果数据库 > 期刊 > 期刊详情页
一种基于历史信息的多层次中文句法分析方法
  • ISSN号:1000-386X
  • 期刊名称:计算机应用与软件
  • 时间:0
  • 页码:45-51
  • 语言:中文
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术] F231.5[经济管理—会计学;经济管理—国民经济]
  • 作者机构:[1]苏州大学计算机科学与技术学院,江苏苏州215006, [2]江苏省计算机信息处理技术重点实验室,江苏苏州215006
  • 相关基金:国家自然科学基金项目(60673041);国家高技术研究发展计划(2006AA01Z147).
  • 相关项目:基于机器学习的高性能自适应信息抽取关键技术研究
中文摘要:

实现一个基于历史信息的多层次中文句法分析系统。采用最大熵模型进行参数学习,在每层处理过程中,优先识别出容易识别的组块,在此基础上根据更丰富的上下文信息循环进行复杂组块的识别,直至识别出根结点。通过采用给出的相关算法,实验结果表明,在宾州中文树库测试集Section271-300上得到的F值性能为83.76%(〈=40 words)和80.02%(〈=100 words)。

英文摘要:

This paper proposed a History-based hierarchical Chinese parser. The maximum entropy model is applied for learning parameters. In each level's process,simple constitutes would be detected firstly, so that the complex ones are to be recognized reliably with richer contextual information circulation in the following process until root node is identified. In this paper,the pertinent algorithm of the system is given, and evaluation on the Penn Chinese Treebank Section 271 - 230 ( based on gold standard segmentation) shows that this parser achieves the state-of-art performance with F-Measure 83.76 ( 〈 = 40 words) and 80.02 ( 〈 = 100 words).

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用与软件》
  • 北大核心期刊(2011版)
  • 主管单位:上海科学院
  • 主办单位:上海市计算技术研究所 上海计算机软件技术开发中心
  • 主编:朱三元
  • 地址:上海市愚园路546号
  • 邮编:200040
  • 邮箱:cas@sict.stc.sh.cn
  • 电话:021-62254715 62520070-505
  • 国际标准刊号:ISSN:1000-386X
  • 国内统一刊号:ISSN:31-1260/TP
  • 邮发代号:4-379
  • 获奖情况:
  • 全国计算机类中文核心期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2011版),中国北大核心期刊(2000版)
  • 被引量:27463