位置:成果数据库 > 期刊 > 期刊详情页
面向海量地质文档的表格信息快速抽取方法研究
  • ISSN号:1004-4051
  • 期刊名称:《中国矿业》
  • 时间:0
  • 分类:P208[天文地球—地图制图学与地理信息工程;天文地球—测绘科学与技术]
  • 作者机构:[1]湖南科技大学地理空间信息技术国家地方联合工程实验室,湖南湘潭411201, [2]国土资源部地质信息技术重点实验室,北京100037, [3]中国地质调查局发展研究中心,北京100037, [4]中国地质科学院矿产资源研究所,北京100037, [5]西北大学城市与环境学院,陕西西安710127
  • 相关基金:国土资源部公益性行业科研专项项目资助(编号:201511079)
中文摘要:

以Hadoop分布式系统架构中最核心的HDFS和MapReduce为基础,提出了一种面向海量地质文档的表格信息快速抽取的方法。为了提高地质文档表格信息抽取速度,首先利用关键词查找文档在HDFS中存储的根目录,其次利用Hadoop分布式集群中Map函数和Reduce函数实现单元格信息的抽取和信息还原显示,最后对重庆市矿产资源潜力评价成果数据中WORD文档进行表格快速抽取实验。实验证明,本文提出的地质文档表格信息快速抽取方法可以大幅缩减传统单机串行地质文档表格信息抽取所需的时间。

英文摘要:

Based on the most core HDFS and MapReduce in Hadoop distributed system architecture,a rapid extraction method of table information for massive geological documents is proposed.In order to improve the extraction speed of geological information document form,first of all,using the key WORDs to find documents stored in the HDFS root directory,then,using the Hadoop distributed cluster Map function and a Reduce function reduction cell information extraction and information,according to the mineral resources potential evaluation result data in Chongqing in WORD document form rapid extraction experiments.It is proved that the method of rapid extraction of geological document table information in this paper can greatly reduce the time needed to extract the information of the traditional single-machine serial geological document form.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中国矿业》
  • 中国科技核心期刊
  • 主管单位:中国矿业联合会
  • 主办单位:中国矿业联合会
  • 主编:陈颂今
  • 地址:北京市海淀区西直门北大街45号时代之光名苑2号楼901
  • 邮编:100044
  • 邮箱:magazine@chinamining.org
  • 电话:010-68332570 88374940
  • 国际标准刊号:ISSN:1004-4051
  • 国内统一刊号:ISSN:11-3033/TD
  • 邮发代号:2-566
  • 获奖情况:
  • 全国中文核心期刊,中国科技论文统计源期刊,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:21461