位置:立项数据库 > 立项详情页
Web潜在社区的发现技术研究
  • 项目名称:Web潜在社区的发现技术研究
  • 项目类别:面上项目
  • 批准号:60773216
  • 申请代码:F020204
  • 项目来源:国家自然科学基金
  • 研究期限:2008-01-01-2010-12-31
  • 项目负责人:杨楠
  • 负责人职称:副教授
  • 依托单位:中国人民大学
  • 批准年度:2007
中文摘要:

Web看似的无组织结构,但局部具有自组织的结构,该结构反映了Web中的社会活动,社区就是这样的重要结构之一。发现社区对于研究Web的组成、演变、对于更好的预测Web发展趋势具有重要意义。本项目就是在这种背景下提出的。本项目以链接分析技术为基础,考虑页面的语义和链接信息的结合,开展社区的发现技术、结果的真实性和有效性的评价方法研究。在面向主题的方法中,通过对抽取主题子图中的紧密二分图为基本类,并应用层次聚类得到子图的树状图,按照模块最大化的原则分割树状图,可以得到最优的社区结构。为了评价最终的社区,研究了从社区结果中抽取主题的方法。在无主题方法中,考虑到割点会破坏紧密二分图的结构平衡,引入了紧密二分图块的概念。提出了起始节点选择的重要性和抽取局部最大紧密二分图块的迭代算法。实验使用Web爬虫收集了4个数据集,实验结果表明该方法防止了子图中可能包含的大量割点。为获得更精确的社区结构,开展细粒度链接分析技术。实验结果表明基于块的HITS算法抽取的主题具有较高的精度。

结论摘要:

英文主题词Web communities; Topic discovery; Link analysis; Semantic similarity


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 5
  • 3
  • 0
  • 0
  • 0
相关项目
期刊论文 150 会议论文 29 获奖 6 著作 3
期刊论文 19 会议论文 3
期刊论文 15 会议论文 6 专利 3
杨楠的项目