位置:成果数据库 > 期刊 > 期刊详情页
基于重复模式的Web信息语义表示方法的研究
  • ISSN号:1000-1220
  • 期刊名称:《小型微型计算机系统》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]东北大学信息科学与工程学院,辽宁沈阳110004
  • 相关基金:基金项目:国家“十五”科技攻关项目(2004BA721A05)资助;辽宁省基金项目(20072031)资助.
中文摘要:

根据Web页面中出现的重复信息对Web页所体现的语义进行表示,可以提高Web页分类正确的精度.基于这一思想,本文通过对传统重复模式表示法的分析,提出基于重复模式的Web信息语义表示法.该方法在形式化描述重复模式的基础上,抽取Web信息中的重复模式建立表达Web信息语义特征的相关矩阵,并通过γ相似匹配算法计算重复模式的权重继而进行Web信息分类.实验证明,采用基于重复模式的Web信息语义表示法能够较好的体现Web网页信息的主题特征,可以提高Web信息分类的准确率.

英文摘要:

The method that using repeating information appeared in Web pages to represent the semantic meaning can be used to improve the correct rate of Web pages classification. Based on the thought above, this paper analyses and improves the traditional repeating patterns representation and further proposes a new semantic representation of Web information based on repeating patterns. First, the repeating patterns are formal described and then the repeating patterns of Web information are extracted and the correlative matrix is built. At last, γ approximate matching algorithm is used to compute the weight of repeating patterns and categorize the Web pages. Experiment result shows that semantic representation of Web information based on repeating patterns is good at the extraction of Web pages' topic characters, and this approach can also improve the accuracy of Web information classification.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《小型微型计算机系统》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院沈阳计算技术研究所
  • 主编:林浒
  • 地址:沈阳市浑南新区南屏东路16号
  • 邮编:110168
  • 邮箱:xwjxt@sict.ac.cn
  • 电话:024-24696120 024-24696190-8870
  • 国际标准刊号:ISSN:1000-1220
  • 国内统一刊号:ISSN:21-1106/TP
  • 邮发代号:8-108
  • 获奖情况:
  • 中国自然科学核心期刊,中国科学引文数据库来源期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:23212