位置:成果数据库 > 期刊 > 期刊详情页
单路径层次化网页分类算法
  • ISSN号:1000-7024
  • 期刊名称:《计算机工程与设计》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]深圳大学信息工程学院(软件学院),广东深圳518060
  • 相关基金:国家自然科学基金项目(60673122);深圳大学科研启动基金项目(2006046).
中文摘要:

网页自动分类是解决互联网信息检索困难的有效方法。虽然有很多自动分类算法和系统,但是大部分此类算法注重如何将网页准确分到某个独立的类别里面,却忽略类别之间所组成的体系结构本身也具备的一些隐藏分类信息。同时,一般的分类算法每次分类都需要搜索所有的类别。针对这些缺点,提出了一种基于结构的单路径层次化网页分类算法,该分类方法利用类别之间具有树状结构这一特点,对类别中存在父子关系的类别间进行信息传递,使得每次分类只需要搜索树中一条路径而不用遍历所有树节点。实验结果证明,这种单路径搜索技术与相关的算法相比,在减少搜索节点的同时可以提高6%的准确度。

英文摘要:

Automatic classification of web pages is an effective way to deal with the difficulty of retrieving information from the Interact. Although there are many automatic classification algorithms and systems that have been proposed, most of them focus on how to classified webpage into categories correctly yet ignore the category hierarchy also provides some useful information for classification. They also require searching through all existing categories to make any classification. A single-path hierarchical classification system is proposed, which is capable of organizing the web pages into a tree structure and classifying web pages by searching through only one'path of the tree structure. The test results show that the proposed single-path search technique reduces the search complexity and increases the accuracy by 6% comparing to related algorithms.

同期刊论文项目
期刊论文 44 会议论文 17
同项目期刊论文
期刊信息
  • 《计算机工程与设计》
  • 北大核心期刊(2011版)
  • 主管单位:中国航天科工集团
  • 主办单位:中国航天科工集团二院706所
  • 主编:汤铭瑞
  • 地址:北京142信箱37分箱
  • 邮编:100854
  • 邮箱:ced@china-ced.com
  • 电话:010-68389884
  • 国际标准刊号:ISSN:1000-7024
  • 国内统一刊号:ISSN:11-1775/TP
  • 邮发代号:82-425
  • 获奖情况:
  • 中国科学引文数据库来源期刊,中国学术期刊综合评价数据库来源期刊,中国科技论文统计与分析用期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:45616