Web看似的无组织结构,但局部具有自组织的结构,该结构反映了Web中的社会活动,社区就是这样的重要结构之一。发现社区对于研究Web的组成、演变、对于更好的预测Web发展趋势具有重要意义。本项目就是在这种背景下提出的。本项目以链接分析技术为基础,考虑页面的语义和链接信息的结合,开展社区的发现技术、结果的真实性和有效性的评价方法研究。在面向主题的方法中,通过对抽取主题子图中的紧密二分图为基本类,并应用层次聚类得到子图的树状图,按照模块最大化的原则分割树状图,可以得到最优的社区结构。为了评价最终的社区,研究了从社区结果中抽取主题的方法。在无主题方法中,考虑到割点会破坏紧密二分图的结构平衡,引入了紧密二分图块的概念。提出了起始节点选择的重要性和抽取局部最大紧密二分图块的迭代算法。实验使用Web爬虫收集了4个数据集,实验结果表明该方法防止了子图中可能包含的大量割点。为获得更精确的社区结构,开展细粒度链接分析技术。实验结果表明基于块的HITS算法抽取的主题具有较高的精度。
英文主题词Web communities; Topic discovery; Link analysis; Semantic similarity