位置:成果数据库 > 期刊 > 期刊详情页
基于MapReduce的多文档自动文摘的设计与实现
  • ISSN号:1002-8331
  • 期刊名称:计算机工程与应用
  • 时间:2011.10.10
  • 页码:67-70
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国计量学院光学与电子科技学院,杭州310018
  • 相关基金:基金项目:国家自然科学基金(the National Nafural Science Foundation of China under Grant No.50905170,No.61007012).
  • 相关项目:面向无线多媒体传感器网络服务质量的视频编码算法研究
作者: 胡琪|邹细勇|
中文摘要:

多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自动文摘面临的主要难题之一。MapReduce是Google提出的一种分布式并行计算方法,它可以部署在任意一个普通商用计算机组成的集群上,能够有效地协调集群内各计算机的计算任务,充分利用计算机集群的处理能力,能够对海量数据进行有效的分析处理。提出了一个有效的实验模型,将MapReduce分布式并行框架应用在多文档自动文摘技术中。实验结果表明,MapReduce在保证文摘质量的前提下,能够有效地提高文摘抽取过程的处理性能。

英文摘要:

Multi-document summarization is a technology of natural languages processing, which extracts important information from multiple texts about same topic according to ratio of compression.It can execute data mining of Intemet information from the global perspective.In the face of rapid growth of network resources, how to process automatic text summarization accurately and efficiently from mass data source is a main challenge in multi-document summarization.MapReduce is a distributed and parallel computing method recommend by Google which can be deployed in cluster of any ordinary commercial computers.It can coordinate compute tasks of each computer in cluster, take full advantage of the processing power of computer cluster and analyze mass data efficiently.This paper presents an effective experimental model, which implements multi-document automatic summarization technology with MapReduce,which is a distributed and parallel framework.The re- suits show that MapReduce can effectively improve the performance in the processing of extracting abstracts in the premise of the quality of summarization.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机工程与应用》
  • 北大核心期刊(2014版)
  • 主管单位:中国电子科技集团公司
  • 主办单位:华北计算技术研究所
  • 主编:怀进鹏
  • 地址:北京市海淀区北四环中路211号北京619信箱26分箱
  • 邮编:100083
  • 邮箱:ceaj@vip.163.com
  • 电话:
  • 国际标准刊号:ISSN:1002-8331
  • 国内统一刊号:ISSN:11-2127/TP
  • 邮发代号:82-605
  • 获奖情况:
  • 1. 2012年首批获得中国学术文献评价中心发布的 “...,2. 2001年获得新闻出版署“中国期刊方阵双效期刊”,3. 2008年首批入选国家科技部“中国精品科技期刊...,4.2003年-2011年连续获得工业和信息化部期刊最高...
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:97887