垂直搜索引擎的数据来源于各大相关网站。随着互联网用户越来越多,相互转载,重复发布的数据也越来越多,由于这些重复及相似数据的存在,严重影响了搜索引擎的检索结果。针对这一问题本文提出了一种解决方法,即利用MD5算法在数据处理阶段有效的消除冗余数据。结果表明该方法很好的提高了检索质量。