位置:成果数据库 > 期刊 > 期刊详情页
开放式文本信息抽取
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:0
  • 页码:98-110
  • 语言:中文
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院自动化研究所模式识别国家重点实验室,北京100190, [2]中国大百科全书出版社,北京100037
  • 相关基金:国家自然科学基金资助项目(60875041),国家自然科学基金资助项目(61070106)致谢 感谢清华信息科学与技术国家实验室(筹)对本项目的资助.
  • 相关项目:汉语依存分析的概率化决策动作模型及自适应技术研究
中文摘要:

该文研究了一种基于多特征表示的本体概念挂载方法。以中国大百科知识体系作为本体体系结构,抽取网络知识库条目作为本体概念,通过分析条目中文本内容、语义标签和半结构化信息获得本体概念间层级关系。该文将中国大百科知识体系扩展为百万级概念的多领域中文本体,为进一步抽取本体概念的属性、概念之间的非层级关系以及支持问答服务等应用建立了良好的基础。实验证明该方法相对于单一特征方法能够提高11.8%的挂载精度。

英文摘要:

This paper proposes an ontology concept acquisition method based on heterogeneous features.We regard the Encyclopedia of China as the taxonomy of ontology,extract Web knowledge base articles as concepts and learn taxonomic relations between concepts by considering the text content,folksonomies as well as semi-structured information.We extend the Encyclopedia of China to a mega-scale global Chinese ontology which provide practical support for concept attributes extraction,non-taxonomic relations extraction and other applications such as Question Answering System.Experimental results show that the proposed method achieved 11.8% performance improvement compared to the single feature method.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136