就当前舆情信息数据的海量性和数据源展现的不可预见性,对Html页面进行降噪、子树构建,通过相似度计算和舆情简易本题库的引入完成数据块识别和数据记录集抽取,最后以Hadoop平台为实验环境,对抽取出的算法进行实验,实验表明该算法在舆情数据挖掘中,对抽取规则的自动提取具有一定的参考价值。