位置:成果数据库 > 期刊 > 期刊详情页
基于句子权重和篇章结构的政府公文自动文摘算法
  • ISSN号:1006-2475
  • 期刊名称:《计算机与现代化》
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]湖南省产商品质量监督检验研究院,湖南长沙410007, [2]湖南师范大学数学与计算机科学学院,湖南长沙410081, [3]高性能计算与随机信息处理省部共建教育部重点实验室,湖南长沙410081
  • 相关基金:国家自然科学基金资助项目(61502165);湖南省科技计划项目(2014FJ6030);湖南省教育厅科研项目(13C527);长沙市科技计划项目(k1403042.11);湖南省重点学科建设项目(湘教发[2011]76号);湖南师范大学学位与研究生教育教改课题(14JG13);湖南师范大学教学改革项目(处发2015-13-52)
中文摘要:

提高文摘自动生成的准确性,能够帮助人们快速有效地获取有价值的信息。本文根据政府公文结构性强的特点,提出一种基于句子权重和篇章结构的政府公文自动文摘算法,首先通过基于游标的截取字符分句算法,对文档中句子和词语信息进行精确统计,获得对文章内容和篇章结构的基本了解;在此基础上,提出基于篇章结构的词语权重和句子权重计算方法,并根据权重计算结果对句子进行权重排序;然后,根据生成摘要的规模,筛选出一定数量的候选文摘句子;最后,对候选文摘句子进行一定的后处理,输出文摘句。实验结果表明,与同类型自动文摘算法以及word2003提供的自动文摘工具相比,本文提出的自动文摘算法在准确率和召回率上都有较大提高。

英文摘要:

To improve the accuracy of automatic text summarization can help people to obtain the valuable information simpler and more efficient. According to the structural characteristics of government documents, this paper proposed an automatic summariza- tion algorithm based on sentence weight and chapter structure. First, from the accurate statistics information of sentences and words in the document, the article content and a basic understanding of textual structure can be obtained. Then through the calcu- lation of words' weight and sentences' weight, sentences can be sorted. According to the size of the summarization, the candi- date summary sentences can be chosen. Finally, after doing some post-processing, the final sentences of the text summarization can be output. The results of experiment show that, compared with the similar algorithm, the accuracy rate and the recall rate in our algorithm are improved a lot.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机与现代化》
  • 中国科技核心期刊
  • 主管单位:江西省科学技术厅
  • 主办单位:江西省计算机学会 江西省计算技术研究所
  • 主编:刘波平
  • 地址:南昌市西湖区井冈山大道1416号8楼
  • 邮编:330003
  • 邮箱:jgsdd@163.com
  • 电话:0791-86490996
  • 国际标准刊号:ISSN:1006-2475
  • 国内统一刊号:ISSN:36-1137/TP
  • 邮发代号:44-121
  • 获奖情况:
  • 中国科技核心期刊 中国科技论文统计源期刊 江西省...
  • 国内外数据库收录:
  • 波兰哥白尼索引,中国中国科技核心期刊
  • 被引量:14808