位置:成果数据库 > 期刊 > 期刊详情页
基于简单名词短语的汉语介词短语识别研究
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:2015.11.1
  • 页码:8-13
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]大连理工大学计算机科学与技术学院,辽宁大连116024, [2]鲁东大学文学院,山东烟台264025
  • 相关基金:国家自然科学基金(61272375;61173100)
  • 相关项目:融合指代消解和迁移学习的蛋白质交互关系抽取的研究
中文摘要:

模糊限制语常用来表示不确定性和可能性的含义,由模糊限制语所引导的信息为模糊限制信息。为进行中文事实信息的抽取,应将模糊限制信息与事实信息区分开来。然而中文模糊限制语语料资源却十分缺乏,影响了中文模糊限制语和模糊限制信息检测的研究。该文研究了中文模糊限制语的分类,并在生物医学和维基百科两个领域,设计构建了一个具有2.4万句规模的中文模糊限制语语料库。统计分析了语料标注的一致性,以及模糊限制语的类型和领域之间的关系。这些资源对于中文模糊限制信息检测研究,以及中文事实信息的抽取具有重要意义。同时,为语言学家从语义和语用等方面进行模糊限制语的研究提供了强大的知识库支持。

英文摘要:

Hedge is usually used to express uncertainty and possibility. When authors cannot back up their state- ments, they usually use hedge to express uncertain information. To avoid extracting uncertain statements as factual information, uncertain information should be distinguished from factual information. However, inadequate Chinese hedge corpus limited the research of Chinese hedge. This paper discusses the categorization of Chinese hedge, introduces the design and construction of a 24,000-sentence Chinese hedge corpus in the biomedical and Wikipedia domains. We calculate agreement rates for the corpus and reveal the domain and genre dependency of hedges. The con- struction of the corpus is of great significance in the research of Chinese hedge detection and Chinese information extraction. Meanwhile, the resource provides a great support for linguists to study the semantic hedge and the pragmatic hedge.

同期刊论文项目
期刊论文 50 会议论文 29 著作 1
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136