位置:成果数据库 > 期刊 > 期刊详情页
基于合并因子的多种格式文件索引技术
  • ISSN号:1007-2683
  • 期刊名称:哈尔滨理工大学学报
  • 时间:0
  • 页码:1-4-
  • 分类:TM391.3[电气工程—电机]
  • 作者机构:[1]清华大学信息技术研究院,北京100084, [2]哈尔滨理工大学计算机科学与技术学院信息安全与智能技术研究中心,黑龙江哈尔滨150080, [3]哈尔滨理工大学外国语学院,黑龙江哈尔滨150080
  • 相关基金:国家自然科学基金(60903083); 黑龙江省自然科学基金(F200936); 教育部人文社科项目(11YJC7400)
  • 相关项目:垃圾邮件过滤的优化目标、建模及顺序回归研究
中文摘要:

为了改进传统的文本检索技术存在检索文件格式种类单一,索引大数据量文件速度慢,甚至造成内存溢出等问题,基于Lucene系统及相关技术,研究了基于合并因子的多种格式文件索引技术,并在此基础上构建了中文文本信息检索系统.实验分析表明,本系统有效地实现了多种格式文件检索功能,通过合并因子的设定有效提高了索引速度,系统可靠性高.

英文摘要:

Traditional file indexing technology has many problems,such as single formats of file,low speed of indexing a mass of data and documents,and even out of memory.To tackle the above problems,this paper proposes the multiple formats file indexing technology based on merging factor.Furthermore,the Chinese text information retrieval system is built based on the improvement of the Lucene system.Experimental results show that the system effectively realizes the function of the multiple formats file indexing with high reliability.The speed of indexing is improved by the set of merging factors.

同期刊论文项目
期刊论文 12 会议论文 12 专利 5 著作 2
同项目期刊论文
期刊信息
  • 《哈尔滨理工大学学报》
  • 中国科技核心期刊
  • 主管单位:黑龙江省教育厅
  • 主办单位:哈尔滨理工大学
  • 主编:刘献礼
  • 地址:哈尔滨市南岗区学府路52号
  • 邮编:150080
  • 邮箱:xb-hust@163.com
  • 电话:0451-86396391
  • 国际标准刊号:ISSN:1007-2683
  • 国内统一刊号:ISSN:23-1404/N
  • 邮发代号:14-130
  • 获奖情况:
  • 获国家教育部期刊评比三等奖
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2014版)
  • 被引量:7007