位置:成果数据库 > 期刊 > 期刊详情页
一种多分类器Deep Web数据源的自动分类与判别方法
  • ISSN号:1000-386X
  • 期刊名称:《计算机应用与软件》
  • 时间:0
  • 分类:TP391.43[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术] TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]苏州大学计算机科学与技术学院,江苏苏州215006, [2]南京大学计算机软件新技术国家重点实验室,江苏南京210093
  • 相关基金:国家自然科学基金项目(60673092,60775046,60873116);教育部科学技术研究重点项目(207040);中国博士后科研基金项目(20060390919);江苏省自然科学基金项目(BK2008161);江苏省高校自然科学基金(06KJB520104).
中文摘要:

Deep Web数据源的发现和其领域相关性越来越引起人们的关注和兴趣。针对在判别查询接口时,提取精度低和忽略领域相关性的问题,提出一种采用多分类器对Deep Web数据源进行自动分类和判别的方法,其思想是:对爬虫获取到的页面使用朴素贝叶斯分类器对其进行领域相关性分类,然后使用改进的决策树分类器来对特定领域的数据源进行判定。实验结果表明此方法相比于使用单一决策树分类器有更好的性能,其召回率和精度都有所提高。

英文摘要:

Recently, the discovery of Deep Web data source and its domain correlation attract growing attention and interests. This paper proposed a method using multi-classifier to automatically classify and discriminate the data source of Deep Web to solve the problem that when discriminating the query interfaces the extraction precision is low and the domain correlation is overlooked. The notion of the method is ,first it uses Naive Bayes classifier to classify the pages snatched by the crawler upon their domain correlation; secondly, it uses the improved CA. 5 Decision tree algorithm to judge the data source in specific domain. The result of the experiment competed with the single decision tree classifi- er proved that this method has better performance in higher recall rate and precision.

同期刊论文项目
期刊论文 46 会议论文 9 专利 3
同项目期刊论文
期刊信息
  • 《计算机应用与软件》
  • 北大核心期刊(2011版)
  • 主管单位:上海科学院
  • 主办单位:上海市计算技术研究所 上海计算机软件技术开发中心
  • 主编:朱三元
  • 地址:上海市愚园路546号
  • 邮编:200040
  • 邮箱:cas@sict.stc.sh.cn
  • 电话:021-62254715 62520070-505
  • 国际标准刊号:ISSN:1000-386X
  • 国内统一刊号:ISSN:31-1260/TP
  • 邮发代号:4-379
  • 获奖情况:
  • 全国计算机类中文核心期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2011版),中国北大核心期刊(2000版)
  • 被引量:27463