搜索引擎是一种特殊的检索系统,其信息来源于互联网,处理的格式大多为HTML,而中文搜索引擎相比英文搜索引擎在编码、分词等问题上都有其自身特点。笔者针对中文搜索引擎提出了一种网页结构化信息获取系统的设计方案,并使用Python语言实现。该系统由网页抓取、网页信息提取、敏感词过滤三部分组成,最后可获得结构化的网页有效信息。其中,网页抓取采用宽度优先搜索的策略;网页信息提取部分采用基于标签的文本提取方法;敏感词过滤部分针对中文特点提出了一种过滤算法,该算法在模式串长度较短的情况下平均复杂度为O(n)。实践证明,该系统与Lucene等检索系统结合即可提供中文搜索引擎服务。