粒度计算是当前人工智能,特别是智能信息处理领域最为活跃的研究方向,对大规模复杂数据的建模、分析与计算任务具有重要意义。本课题旨在研究面向混合数据(同时具有符号型变量、数值型变量描述的数据)粒度计算理论与方法。主要内容包括(1)利用混合数据聚类技术对连续数值属性的值域进行粒化,进一步诱导论域上的二元关系,建立混合数据的粒化方法;(2)在混合数据粒化的基础上,研究隐含于数据中的概念的格结构及其概念格构造方法,研究粒度的运算及运算下粒度世界的代数结构;(3)在此基础上开展多粒度与动态粒度视角下的混合数据约简、知识获取与评价研究。系统地发展面向混合数据建模、分析与计算的粒度计算理论与方法,开发一个可用于混合数据建模与分析的实验系统。本项目研究成果将丰富粒度计算理论,拓展粒度计算的数据适用范围,探索复杂信息处理的新途径,对数据挖掘和知识发现的研究有重要的理论意义和应用价值。
mixed data;granular computing;concept lattice;knowledge acquisition;
本项目以现实中广泛存在的混合数据为研究对象,以粗糙集、概念格等理论为基本工具,发展面向混合数据的粒化、不确定性度量、知识获取与推理的粒计算新理论与新算法,并应用于文本数据、遥感数据的分析与处理。主要研究结果如下(1)在混合数据的粒度的代数结构与聚类最优粒度选择方面,通过定义模糊粒的四种运算,证明了混合数据的粒度空间可被理解为一个有补格结构;以熵为主要工具,设计了面向混合数据聚类的最优粒度选择算法。(2)在信息系统中知识粒度的刻画方面,考虑了现在常用来度量粗糙性的模糊熵是否有效的问题,给出了模糊熵可用来度量粗糙性的必要条件。(3)在基于概念格的粒计算与推理方面,提出了概念格构建与规则获取的模糊粒化基方法;提出了基于概念格不同粒度的领域本体构建方法;提出了基于概念格的多示例学习方法;研究了模糊决策背景和模糊决策蕴涵的概念及其语义和语构特征,讨论了一致闭包与模型的关系,证明了导出的推理规则的协调性和完备性。(4)在符号数据的聚类方面,提出了面向生物数据有效的k-modes算法和赋权的k-modes子空间聚类算法。(5)在理论成果的应用方面,主要是研究了文本情感分类、聚类问题,以及空间数据分析中的分类、空间关系抽取问题。这些成果丰富了粒计算理论,为混合数据分析与处理提供了新方法与新算法。