位置:成果数据库 > 期刊 > 期刊详情页
面向中文搜索引擎的网页结构化信息获取系统的设计与实现
  • ISSN号:1003-9767
  • 期刊名称:《信息与电脑》
  • 时间:0
  • 分类:TP391.3[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:北京师范大学信息科学与技术学院
  • 相关基金:国家自然科学基金(项目编号:No.61472043)资助
中文摘要:

搜索引擎是一种特殊的检索系统,其信息来源于互联网,处理的格式大多为HTML,而中文搜索引擎相比英文搜索引擎在编码、分词等问题上都有其自身特点。笔者针对中文搜索引擎提出了一种网页结构化信息获取系统的设计方案,并使用Python语言实现。该系统由网页抓取、网页信息提取、敏感词过滤三部分组成,最后可获得结构化的网页有效信息。其中,网页抓取采用宽度优先搜索的策略;网页信息提取部分采用基于标签的文本提取方法;敏感词过滤部分针对中文特点提出了一种过滤算法,该算法在模式串长度较短的情况下平均复杂度为O(n)。实践证明,该系统与Lucene等检索系统结合即可提供中文搜索引擎服务。

同期刊论文项目
同项目期刊论文
期刊信息
  • 《信息与电脑》
  • 主管单位:北京电子控股有限责任公司
  • 主办单位:北京电子控股有限责任公司
  • 主编:柳维长
  • 地址:北京市东城区北河沿大街79号
  • 邮编:100009
  • 邮箱:info@chinacc.com
  • 电话:010-64016711
  • 国际标准刊号:ISSN:1003-9767
  • 国内统一刊号:ISSN:11-2697/TP
  • 邮发代号:82-454
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:1956