位置:成果数据库 > 期刊 > 期刊详情页
半结构化数据的最小化模式发现
  • ISSN号:1000-386X
  • 期刊名称:《计算机应用与软件》
  • 时间:0
  • 分类:TP311.13[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术] TN791.02[电子电信—电路与系统]
  • 作者机构:[1]广东轻工职业技术学院计算机系,广东广州510300, [2]华中科技大学控制科学与工程系,湖北武汉430074
  • 相关基金:国家自然科学基金资助项目(60574025).
中文摘要:

半结构化数据的模式抽取对于半结构化数据查询、优化及异构数据的集成具有重要的意义。结合标签路径及标签路径的目标集概念,提出了基于OEM(Object Exchange Model)模型的半结构化数据最小化模式抽取新方法,并给出了与标签路径目标集、支持度计算相关的两个定理。算法的基本思路:依据文中的两个定理,采用宽度优先自顶向下的遍历策略依次求出各标签路径的最后一个标签的目标集及支持度,标签支持度大的目标集优先映射为对应的模式节点。对同一半结构数据实例,算法抽取的模式与其他算法得到的模式相比规模小、算法执行时间短。算法适用于层次型及包含环路的OEM半结构化数据模式抽取。

英文摘要:

Schema extraction of Semi-structured data is important for semi-structured data query and optimization as well as integration of heterogeneous data. By combining two conceptions of label path and target set of label path, this paper presents a new algorithm of minimized schema extraction for semi-structured data based on the OEM model, and gives two theorems related to computing the target set and supporting degree of label path. The basic idea of the algorithm is: with the help of two theorems, using width-first and top-down ergodic strategy, the target set and supporting degree of the last label in each label path are computed in turn,the target sets with bigger supporting degree are mapped in priority into corresponding schema nodes. For same semi-structured data instance, the scale of the schema extracted by the algorithm stated in this paper is smaller than the schema extracted by other algorithms, and the time of executing the algorithm is shorter as well. The algorithm is suitable for schema extraction of hierarchical OEM semi-structured data and the semi-structured data with loop.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用与软件》
  • 北大核心期刊(2011版)
  • 主管单位:上海科学院
  • 主办单位:上海市计算技术研究所 上海计算机软件技术开发中心
  • 主编:朱三元
  • 地址:上海市愚园路546号
  • 邮编:200040
  • 邮箱:cas@sict.stc.sh.cn
  • 电话:021-62254715 62520070-505
  • 国际标准刊号:ISSN:1000-386X
  • 国内统一刊号:ISSN:31-1260/TP
  • 邮发代号:4-379
  • 获奖情况:
  • 全国计算机类中文核心期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2011版),中国北大核心期刊(2000版)
  • 被引量:27463