位置:成果数据库 > 期刊 > 期刊详情页
基于聚类算法的网页语义结构分析
  • ISSN号:1000-386X
  • 期刊名称:《计算机应用与软件》
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]华东理工大学计算机科学与工程系,上海200237
  • 相关基金:国家自然科学基金(61003126); 上海市自然科学基金(09ZR1408400)
中文摘要:

随着语义网的不断发展,网页语义的研究也在不断的进步。但现阶段的网络结构中,非语义化网页仍旧占据了信息系统最主要的部分。信息系统在整合的过程中,也需要了解网页的语义结构以完成信息的获取和分析。提出一种基于视觉特征筛选的网页语义结构分析方法。该方法可以在忽略网页语义的情况下,通过网页结构的视觉特性和内容特性分析网页中不同结构的语义关系,使用聚类分析方法来推定网页中半结构化信息的语义结构,并通过该方法对一组随机网页进行了分析,结果证明该方法具有比较好的分析能力。

英文摘要:

The research on webpage semantics is making constant progress along with the development of semantic web.However,the non-semantic Web pages are still the principal parts of the information systems at present.In the process of information system integration,there is also the need to understand the semantic structure of the Web pages as to accomplish the access and analysis of the information.This paper proposes an approach for analysing semantic structure of the Web pages based on visual feature selection.In circumstance of ignoring the webpage semantics,the approach can analyse the semantic relations with different structures in Web pages by means of visual and content features of the webpage structure,and infer the semantic structures of the semi-structured information in Web pages by cluster analysis.A series of random Web pages have been analysed by this approach.The result turned out that the approach excels in analysis.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用与软件》
  • 北大核心期刊(2011版)
  • 主管单位:上海科学院
  • 主办单位:上海市计算技术研究所 上海计算机软件技术开发中心
  • 主编:朱三元
  • 地址:上海市愚园路546号
  • 邮编:200040
  • 邮箱:cas@sict.stc.sh.cn
  • 电话:021-62254715 62520070-505
  • 国际标准刊号:ISSN:1000-386X
  • 国内统一刊号:ISSN:31-1260/TP
  • 邮发代号:4-379
  • 获奖情况:
  • 全国计算机类中文核心期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2011版),中国北大核心期刊(2000版)
  • 被引量:27463