计算机技术和网络通信技术的发展,为数据资源共享提供了强大的技术支持。但如何有效地解决复杂大型数据集的管理和访问已成为突出的问题。这表现在一是如何有效地描述资料,二是如何有效过滤和筛选资料。国内外的研究表明,用元数据(Metadata)来描述网上信息资源的属性,并应用资源描述框架(Resource Description Framework,RDF)作为携带多种元数据的工具实现网上资源交流是较好的问题解决途径。然而在医学领域中,数据资料用户往往并不仅限于检索和使用大量的医学原始数据资料,他们可能更关心这些绝对数和相对数所能揭示的数据规律或实验结论。这时常使用医学统计学的方法先将原始数据进行整理,然后再用不同的方法进行分析。但数据使用者对这些整理后的数据和方法是陌生的,他们所能得到的只是大量的医学数据。因此,医学原始数据资料经医学统计学加工后,对其数据格式及适用方法进行元数据描述是有必要的。
Medical Experimental Data;Metadata;Dublin Core;Unified Modeling Language;
本课题针对解决复杂大型数据集的管理和访问的问题,首先,提出需求分析,收集和整理医学实验数据,形成医学实验数据信息及评价主要的分类模式、实体关系和信息与数据表达结构。提取医学实验数据评价中的主要分类模式、实体关系和信息与数据表达结构。确定医学实验数据评价网络语义环境分类实体。可能的主要实体有数据类型、实验设计、研究方法、数据格式与内容信息。其次,根据成熟的元数据标准,提出医学实验数据元数据概念框架。通过引用都柏林核心元数据(Dublin Core)项目的15个元素为基础,并结合医学实验数据集的部分数据特点,通过增加限定词加以扩展和缩减,建立医学实验数据元数据标准框架。此外,采用统一建模语言(UML)建模技术进行设计,分析了医学实验数据共享数据库管理系统的动态模型和静态模型。该研究的科学意义是通过对元数据及元数据规范(或标准)的研究,参考国际、国内的已经研究成熟,具备参考价值的元数据标准规范,利用元数据复用制定出适合大型医学实验数据的元数据标准框架。构建网络条件下医学实验数据元数据语义分类系统词表,建立医学实验数据元数据评价数据网络语义模型和标准基础框架,为在互联网上实现医学实验数据元数据质量与内容审核评价、数据处理与共享提供信息标准方面的支持。