非结构数据指的是广泛存在于个人电脑、服务器、内联网以、及互联网但又没有明确的结构因而不能用现有数据库技术进行有效地管理数据。这类数据包括文本文件、Word文件、PDF文件、HTML文件、图像、音频以及视频文件。非结构数据的管理是信息产业亟待解决一个主要问题。本项目以数据库技术、分类技术、关键字反向检索技术、Web 技术、推理技术、本体、元建模、语义网为基础,深入系统地研究非结构数据管理的根本问题和现有数据模型表示这类数据的不足,设计一个新的元数据语义模型—信息网模型(INM)用于表示非结构数据丰富的语义及相应的定义、操作和查询语言;从底而上设计并系统地实现了基于INM的非结构数据管理系统原型(INM-DBMS)以有效的存储、管理、维护、修改和推理数据,并提供基于语境、语义、和数据之间的各种关系的查询;研究了基于机器学习、数据抽取及推理技术半自动化地从Web上的非结构数据中抽取出基于INM模型的结构化数据并用INM-DBMS管理,实现了Web数据的语义搜索;研究开发了关键词相关性搜索子系统。它利用INM中的图结构和语义关系,允许用户仅靠输入一些关键词来发掘相互联系的各种实体。
英文主题词databases; information retrieval and categorization; unstructured data, meta modeling; theoretical foundations