位置:成果数据库 > 期刊 > 期刊详情页
中文维基百科的结构化信息抽取及词语相关度计算方法
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:2012.5.5
  • 页码:109-115
  • 分类:TP3[自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]广西工学院计算机学院,广西柳州545006, [2]广西工学院鹿山学院,广西柳州545616, [3]华中师范大学计算机学院,湖北武汉430079
  • 相关基金:国家自然科学基金项目(90920005);广西教育厅项目(201106LX873).
  • 相关项目:支持查询语句复述的概念扩展查询方法研究
中文摘要:

提出一种基于文本分割技术的多文档自动文摘方法。该方法使用HowNet作为概念获取工具,通过建立句子概念向量空间模型和利用改进的DotPlotting模型来进行文本分割。利用建立的句子概念向量空间模型计算句子重要度,并根据句子重要度、文本分割结果和文摘句相似度等因素产生文本。使用ROUGE-N评测方法和F_Score作为评测指标对系统产生的文摘进行评测,结果显示使用文本分割技术进行多文档是有效的。

英文摘要:

In this paper, we propose a multi-document auto-abstract method which is based on text segmentation technology. The method uses HowNet as the conceptual access tool, and segments the text through constructing the concept vector space model (CVSM) of sentence and using improved DotPlotting model. The CVSM of sentence is used to compute the importance degree of the sentences, and the text abstract is generated according to the factors of sentences importance degree, text segmentation result and the similarity of the sentences in abstract, etc. ROUGE-N evaluation method and F_Score are used as the evaluation index to evaluate the abstract formed by the system, the results show that to use text segmentation technology for multi-document abstract is effective.

同期刊论文项目
期刊论文 32 会议论文 13 获奖 1 专利 5 著作 1
期刊论文 15 会议论文 26 获奖 2
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136