距离度量是基于距离的机器学习算法的核心所在,很多距离相关的算法都依靠一个好的距离函数获得成功。而名词性属性距离度量相比数值属性距离度量更加复杂。本项目针对基于概率的名词性属性距离度量问题展开研究。研究内容包括1)以朴素贝叶斯模型的属性独立假设为出发点,理论分析属性独立假设对距离函数的影响;2)借助贝叶斯网络和决策树模型来表达属性之间的依赖关系,并把表达的属性依赖关系引入距离函数中,构造新的距离函数,使之在具有强依赖关系的数据上表现出更好的性能;3)研究贝叶斯网络和决策树模型的类概率估测能力,甚至提出新的类概率估测模型,并利用其来计算基于概率的距离函数中的类成员概率,提高相关距离函数的性能。项目首次利用贝叶斯网络和决策树模型来研究距离度量问题,不仅可以为基于概率的名词性属性距离度量新方法研究提供示例,还可以推动基于概率的距离函数的应用,具有非常重要的理论意义和应用价值。
英文主题词distance metrics;nominal attributes;attribute independence assumption;attribute dependence relationship;class probability estimation