位置:成果数据库 > 期刊 > 期刊详情页
一种基于后缀树的中文网页层次聚类方法
  • ISSN号:1008-0562
  • 期刊名称:《辽宁工程技术大学学报:自然科学版》
  • 时间:0
  • 分类:TP393.092[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术] TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]天津大学计算机学院,天津300072, [2]辽宁工程技术大学软件学院,辽宁葫芦岛125105, [3]阜新市气象局,辽宁阜新123000
  • 相关基金:国家自然科学基金资助项目(90604013)
中文摘要:

为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比。聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。

英文摘要:

In order to facilitate users browsing web search results produced by search engines, a new method called STCC algorithm is proposed, which combines STC algorithm and chameleon algorithm to group similar Chinese web pages in a hierarchical fashion. This method employs Jaccard coefficient to modify the similarity measure of base cluster in STC, then according to the similarity matrix of base cluster, chameleon algorithm is used to cluster web pages. Experimental results show that the precision in STCC increases by nearly ten percent compared with that in STC, meanwhile, chain effect in single-link algorithm can be avoided by using STCC algorithm, and it is suitable for large scale web pages clustering.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《辽宁工程技术大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:辽宁省教育厅
  • 主办单位:辽宁工程技术大学
  • 主编:邵良彬
  • 地址:辽宁阜新市辽宁工程技术大学北校区学报编辑部16信箱
  • 邮编:123000
  • 邮箱:xuebao999999@126.com
  • 电话:0418-3350453
  • 国际标准刊号:ISSN:1008-0562
  • 国内统一刊号:ISSN:21-1379/N
  • 邮发代号:
  • 获奖情况:
  • 全国中文核心期刊,辽宁省一级刊物
  • 国内外数据库收录:
  • 美国化学文摘(网络版),荷兰文摘与引文数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:19090