位置:成果数据库 > 期刊 > 期刊详情页
基于网上新闻语料的Web页面自动分类研究
  • ISSN号:1007-7634
  • 期刊名称:情报科学
  • 时间:0
  • 页码:124-127
  • 语言:中文
  • 分类:TP31[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]上海交通大学计算机科学与工程系,上海200030, [2]上海第二工业大学,上海201209
  • 相关基金:国家高技术研究发展计划项目(2009AA04Z106);国家自然科学基金项目(60773088).
  • 相关项目:企业全生命周期知识管理系统客户化定制与进化方法
中文摘要:

Web页面由于其在表达信息的丰富性方面远胜于纯文本文件,因此web页面分类与纯文本分类不同。针对网上中文新闻页面特点,我们提出了一种无需词典的从Web页面中抽取主题的实用算法。并将提取出的类主题概念融入分类用知识库,然后用我们研究小组提出的混合分类算法进行分类,实验语料取自新华网财经新闻。实验结果表明:与不使用web页面特征,仅用全文相比较,分类性能有所提高。

英文摘要:

Web page abundant in contents than text. According to Internet Chinese news pages, pure text.Web page categorization different from pure we present a practical algorithm for extracting subject concept from Web page without thesaurus. And melt these category-subject concept into knowledge base, then classify using hybrid algorithm, experiment corpus excerpt from xinhua net.Experiment result shows: compared with only using full text, categorization performance improved using Web page feature.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《情报科学》
  • 北大核心期刊(2011版)
  • 主管单位:国家教育部
  • 主办单位:中国科学技术情报学会 吉林大学
  • 主编:靖继鹏
  • 地址:长春市人民大街5988号
  • 邮编:130022
  • 邮箱:infosci@jlu.edu.cn
  • 电话:0431-85095200
  • 国际标准刊号:ISSN:1007-7634
  • 国内统一刊号:ISSN:22-1264/G2
  • 邮发代号:12-174
  • 获奖情况:
  • 全国中文核心期刊,2001年被评为吉林省科技类一级期刊
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:36930