位置:成果数据库 > 期刊 > 期刊详情页
基于条件随机场与时间词库的中文时间表达式识别
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:2014.11.19
  • 页码:-
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]大连理工大学计算机科学与技术学院,辽宁大连116024
  • 相关基金:国家自然科学基金(61173100,61173101,61272375)
  • 相关项目:融合指代消解和迁移学习的蛋白质交互关系抽取的研究
作者: 吴琼|黄德根|
中文摘要:

该文提出一种统计与规则相结合的时间表达式识别方法.首先,通过分析中文文本中时间表达式的词形、词性和上下文信息,采用条件随机场识别时间单元而非时间表达式整体,避免了中文时间表达式边界定位不准确的问题;然后,从训练语料中自动获取候选触发词,并依据评价函数对候选触发词打分,筛选出正确的触发词完善触发词库;最后,根据时间触发词库与时间缀词库,制定规则对时间表达式边界进行定位.实验结果显示开式测试F1值达到98.31%.

英文摘要:

This paper proposes a generic algorithm for time expression recognition task by combining rules with sta- tistics. By analyzing a set of linguistic features of time expressions such as lexical features and context information, Conditional Random Fields (CRF) is applied to recognize time unit rather than time expression so as to, avoid the boundary localization problems in Chinese time expressions. In addition, the candidate trigger words are automati- cally obtained from the test corpus, refining the trigger thesaurus by a designed score function. Finally, rules for the time expression boundary localization are formulated based on time trigger thesaurus and time affix word thesaurus. Our experimental results show that the F1 value reaches 98.31% in an open test.

同期刊论文项目
期刊论文 50 会议论文 29 著作 1
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136