训练有素的专家能识别4,000多种气味,但计算机嗅觉的识别能力还十分有限。本项目主要研究内容为(1)自然环境下,气敏传感器响应与气味强度、环境温湿度数学模型的建立。(2)基于非线性独立成分分析(ICA)的观测数据阵特征提取、去噪、解混与分类方法。(3)高维多类别海量样本训练集的分解方法与理论分析。(4)以前向多层感知器(MLP)、径基函数(RBF)网络和支持向量机(SVM)为基本单元的组合分类器实现方法。本项目致力于研究高维(≧60)、多类别(≧500)、大样本(≧50,000)情况下的数据处理方法,尤其是对基于神经网络和支持向量机的分类与非线性映射基本理论、快速学习算法、推广性能进行深入研究,实现柔性智能信息处理方法。目的是解决机器嗅觉走出实验室的关键技术,使之具有识别数千种气味的能力,并能对香气强度进行量化描述,为香料香精等芳香物质香气质量的定性评定、环境监测提供新的分析方法与装置。
本项目设计的机器嗅觉装置具有环形气敏传感器阵列测试箱容积小、关键部件样品恒温精度较高、自动化程度高等优点,功能较为完善,测试结果的稳定性与重复性较好。为了将感知器用于解决大规模学习问题,我们提出了任务分解方法和不平衡样本的虚拟平衡方法。一个n类问题被分解成n个两类问题,然后由n个模块化感知器一一加以解决。一个单输出感知器代表一个类,负责将所代表的类别与所有其他类别分开,即解决一个两类问题。一个感知器通过学习一个小的样本集,将来自较小类别的样本虚拟放大一定倍数,就具有如同学习原始大规模样本集相同甚至更好的推广能力。本项目将气味类别、强度和关键成分同时估计问题看成多维空间样本类别与位置的同时估计问题,用有限阶次的多项式、前向单隐层感知器和支持向量机作为基本组成单元,建立了组合函数逼近模型。一个组合函数逼近模型代表一种气味(即一个类别),其组成单元的结构与参数仅通过学习来自所代表的类别的样本即可确定,从而有效地解决了多输入-多输出函数逼近问题。这一发现是对原研究计划的重要发展。本项目建立的机器嗅觉装置对50余种气味的分类正确率为100%;对4种香料的浓度预测正确率达99.57%。