位置:成果数据库 > 期刊 > 期刊详情页
定题Web信息采集中的元数据处理
  • ISSN号:1671-4512
  • 期刊名称:《华中科技大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]华中科技大学控制科学与工程系,湖北武汉430074
  • 相关基金:国家自然科学基金资助项目(60574025,60074008);湖北省自然科学基金资助项目(2004ABA055).
中文摘要:

论述了元数据在定题Web信息采集中的重要作用,分析了常见的元数据类型,确定了Href,Anchor Text及Surrounding Text三种元数据类型最适合作为定题信息采集依据的元数据类型.利用关联规则挖掘,将支持度和置信度相结合作为相关度的判定标准,并采用禁用词过滤和相关策略过滤技术,给出了元数据的抽取与主题扩展迭代方法.实验证明所提出的元数据处理策略能使主题相关词和实际相关词较好符合,改善误包含和误排除的情况,为定题Web信息采集提供良好前提.

英文摘要:

In this paper, the significance of Web metadata in topic-specific information gathering was discussed and the common kinds of Web metadata were analyzed to confirm the appropriate kinds for topic-specific information gathering. It comes out that Href, Anchor Text and Surrounding Text are the three ones. Using association mining, support and confidence combine to make a standard for relevant judgment. Meanwhile, the technologies of metadata extraction and topic expansion are proposed with forbidden words filtering and relevance filtering. Experimental results indicate that our algorithm and strategies have low false inclusion and low false exclusion, and the relevant topics can inosculate well with the actual relevant topics. It provides better precondition for topic-specific information gathering.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《华中科技大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国教育部
  • 主办单位:华中科技大学
  • 主编:丁烈云
  • 地址:武汉珞喻路1037号
  • 邮编:430074
  • 邮箱:hgxbs@mail.hust.edu.cn
  • 电话:027-87543916 87544294
  • 国际标准刊号:ISSN:1671-4512
  • 国内统一刊号:ISSN:42-1658/N
  • 邮发代号:38-9
  • 获奖情况:
  • 全国优秀科技期刊,首届国家期刊奖,第二届全国优秀科技期刊评比一等奖,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:21013