位置:成果数据库 > 期刊 > 期刊详情页
添加冒号和分号分类标签特征的汉语逗号分类
  • ISSN号:1003-0077
  • 期刊名称:《中文信息学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]苏州大学计算机科学与技术学院,江苏苏州215006, [2]河南科技学院信息工程学院,河南新乡453003, [3]苏州大学自然语言处理实验室,江苏苏州215006
  • 相关基金:国家863计划前沿技术研究类项目(2012AA011102);国家自然科学基金面上项目(61273320)
中文摘要:

标点分析在句子和篇章分析中有重要作用,其中逗号的功能分类是标点分析的重点和难点.该文研究添加冒号和分号分类标签为特征的逗号自动分类.首先给出逗号、冒号和分号的分类方法;然后介绍基于此分类方法的逗号、冒号和分号标点分类语料库;最后分别考察添加冒号类别标签、分号类别标签以及同时添加冒号和分号类别标签为特征的逗号分类结果.实验结果表明,三种情况下的逗号分类正确率均有不同程度的提高.

英文摘要:

Punctuation analysis plays an important role in sentence and discourse analysis, in which the functional classification of the comma is the key and most challenging issue. This paper explores Chinese comma automatic classification by adding the classification labels of Chinese colon or semicolon as new features. First, we describe the classification method of comma, colon and semi-colon. Then the corpora of comma, colon and semicolon are introduced. Finally, we investigate comma classification results by adding Chinese colon and semicolon, respectively and jointly as new feature(s). Experimental results show that the accuracy of comma classification improves in all three cases.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136