当国际网正在快速地成为信息来源的主流渠道,与其它国家的公司一样,我国许多公司正收集和使用网上的低廉信息作出高质量的决策。所以,从多个数据库(源)中低质量的数据中挖掘潜在有用的且高质量的知识是一个国际需求性的研究课题。本项目将设计一个基于局部模式分析策略的模式发现系统群来挖掘多数据库。它主要由数据预处理和模式发现两部分组成。数据预处理系统能纠正错误信息、恢复不完全的信息、清除假信息、选取相关信息,为挖掘多算法产生高质量的且相关的数据输入,使得参加运算的数据量尽可能地少。基于局部模式发现系统可挖掘多数据库中有用的新模式。现有的多数据库挖掘技术不能发现这些新模式。局部模式分析策略能极大地降低搜索成本并产生更为有用的模式。集成这些新技术,本项目将开发一个高性能的多数据库挖掘集成系统。我国的市场和金融等方面的公司和企业可以采用本项目的研究成果分析和处理收集的数据,减少由低数据质量引起的投资风险。
本项目主要研究多数据源发现,建立了用于产生全局模式和局部模式的基础理论和方法。提出并建立的局部模式分析技术不仅效率高,而且能发现用传统方法挖掘不到的一些全局模式模式分布信息、高票模式、例外模式。它已成为一种新方法在数据挖掘方面的权威期刊《Data Mining and Knowledge Discovery》组织了一个专辑进行研究。 标明受本项目资助的国际杂志(包括IEEE TKDE和Information Systems)论文13篇、国际会议(包括KDD06和ICDM06)论文20篇、获得省部级二等奖1项,其中SCI检索论文25篇、影响因子超过1.0的论文7篇。 论文他引共29次、SCI他引共14次,单篇他引最高10次、单篇SCI他引最高6次;一些研究成果被国际同行跟踪研究与发展。 Hye-Chung Kum等在《Data Mining and Knowledge Discovery》杂志的论文认为"更重要的是,通过分布式数据挖掘产生的全局模式为理解局部模式提供额外的洞察。张等研究了多数据库挖掘的问题刻划、难点和挖掘框架"。