位置:成果数据库 > 期刊 > 期刊详情页
一种快速网页检索结果聚类策略
  • 期刊名称:计算机工程与应用,2011,47(12):110-113
  • 时间:0
  • 分类:TP39[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]黑龙江大学 信息科学与技术学院,哈尔滨150080
  • 相关基金:国家自然科学基金(the National Natural Science Foundation of China under Grant No.60773069,No.60873169);黑龙江大学校青年自然科学基金.
  • 相关项目:面向句法分析的动词次范畴化应用技术研究
中文摘要:

在网页聚类中,HAC(Hierarchical Agglomerative Clustering)算法和K-means算法都是经常用到的。但它们都有各自的不足。提出一种两阶段聚类方法。第一阶段利用HAC聚类算法对网络检索结果的标题进行聚类,第二阶段以第一阶段结果作为初始中心用K-means算法聚类标题和摘要取得比较合理的聚类结果。由于标题一般都比较短,可以大大减少HAC算法的运行时间。这样既满足网络检索对时间的要求又可以得到较好的聚类结果。

英文摘要:

In web search result clustering, HAC(Hierarchical Agglomerative Clustering) and K-means are usually used.But each of them has its own fault.This paper advances a two-stage clustering method.In the first stage, it clusters the topics by HAC, in the second stage, it clusters the topics and abstracts by K-means with the initial cluster center from the first stage clustering to get a reasonable clustering result.Because the topics are always short,the running time of HAC is greatly shorter.This method satisfies the need of time to web search and gets a better clustering result.

同期刊论文项目
同项目期刊论文