位置:成果数据库 > 期刊 > 期刊详情页
基于电力公司的多格式文档智能信息检索系统的设计与实现
  • ISSN号:1006-8961
  • 期刊名称:《中国图象图形学报》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]安徽水利水电职业技术学院,合肥231603, [2]合肥工业大学计算机与信息学院,合肥230009
  • 相关基金:国家自然科学基金项目(60705015);安徽省自然科学基金项目(KJ2013B095)
中文摘要:

介绍基于电力公司的多格式文档智能信息搜索系统的设计原理和实现过程.通过PHP调用COM组件以及Java调用jar包,将其他多种文档转换为“.txt”文档,经过分词并采用基于句子特征的文本摘要生成方法生成“.txt”文档的摘要.检索模块采用基于词索引的全文检索,信息检索模型采用空间向量模型,实现摘要及高相关度句子的输出.

英文摘要:

This article describes the design principle and implementation process of the intelligent information re-trieval system based on multiple -format document electric power company. This system realizes how to convertPDF, HTML, XLS, D0C file to txt file by calling C0M component using PHP and calling jar package using Java.On this basis we realize the abstract generation of txt file by using Chinese word segmentation and automatic abstracttechnology based on the characteristics of sentences. Retrieval module uses Full - text retrieval based on word in-dex, takes space vector model as information retrieval and realizes the output of abstract and sentences with highcorrelation.

同期刊论文项目
期刊论文 45 会议论文 4
同项目期刊论文
期刊信息
  • 《数码影像》
  • 主管单位:
  • 主办单位:中国图象图形学学会 中科院遥感所 北京应用物理与计算数学研究所
  • 主编:
  • 地址:北京市海淀区花园路6号
  • 邮编:100088
  • 邮箱:
  • 电话:010-86211360 62378784
  • 国际标准刊号:ISSN:1006-8961
  • 国内统一刊号:ISSN:11-3758/TB
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:0