针对汉语语音信号有声调性,以及浊音呈现的准谐波成分和清音的体现的瞬变成分,在现有时频原子稀疏分解基础上,本项目提出以其固有的最大时频粒子-时频分子为基本分析单元对语音信号进行稀疏分解,结合人耳具有的感知与屏蔽特性来选择时频原子,通过聚类算法由时频原子聚合生成时频分子,从而提取汉语语音信号的结构化的时频感知新特征。研究基于Chirp时频分子和正弦时频分子新概念下的稀疏分解理论和方法;研究利用分数阶傅里叶变换和希尔波特-黄变换预先估计两类时频分子参数的实现算法;研究时频原子与人耳感知与屏蔽特性的关系;研究并由时频原子聚合生成时频分子的聚类算法。本项目属于应用基础研究,考虑语音信号产生机理和人耳感知与屏蔽特性的汉语语音信号的时频感知新特征的提取研究,对于语音与说话人识别、合成与理解、压缩与编码等研究与应用有重要意义。
Feature extraction;Sparse decomposition;Perceptual features;Time-frequency molecule;Chinese speech
本项目针对汉语语音声母和韵母信号发声机理不同,导致的信号差异性以及汉语的有声调性,在现有的时频原子稀疏分解基础上,借用“物质的分子由原子组成、而分子是保持物质性质不变的最小单位”这一概念,提出以其固有的最大时频粒子——时频分子为基本分析单元来对汉语的声母和韵母语音信号进行稀疏分解,并同时考虑到汉语的声调识别问题,从而提取汉语声母、韵母语音信号的结构化的时频感知新特征。 项目的主要研究内容:分别针对声母和韵母的发生机理和信号呈现的特点,寻找合适的时频原子进行稀疏分解; 研究利用分数阶傅里叶变换和希尔波特-黄变换预先估计两类时频原子参数的实现算法;结合人耳感知特性筛选时频原子并通过聚类算法由时频原子聚合生成时频分子方法,从而达到提取汉语语音信号的结构化的时频感知新特征研究目标。 研究结果表明:由于所有的汉语韵母都是浊音,发声时声带振动产生固有的谐波性,其信号在时频平面呈现一条条类平行的时频曲线,采用时频原子对其稀疏分解得到有限个时频原子,并通过聚类法生成时频分子,这一研究结果与预期研究目标一致。而对于汉语声母,除[m]、[n]、[l]、[r]四个声母为浊辅音具有谐波性外,其它声母都是清音, 由于声母发声时声道变化复杂,波形变化剧烈呈类噪声,根据汉语声母发声方法和发声部位的不同,将汉语声母分为浊辅音、塞音、塞擦音、擦音四类,提出基于Morlet小波、Gabor及Chirp原子三种不同时频原子的分解方法,仿真实验结果表明对于具有谐波性的浊辅音,Gabor原子利用原子个数及耗时均较少;对于清辅音中的塞擦音和擦音,Chirp原子利用原子个数约为Gabor原子的90%、分解过程中残差能量衰减速度也优于Gabor原子。由于韵母携带声调信息,利用时频分布和HOUGH变换、提取时频脊线、二值化等图像处理手段提取声调信息。以上这些研究结论对于汉语语音信号的建模、数据压缩、特征提取、语音识别的研究提供可以参考价值。