作为一种新的时频分析工具,分数阶Fourier变换在信号处理领域,尤其是非平稳信号的处理中越来越受到重视。语音信号是一种非平稳信号,将分数阶Fourier变换应用到语音信号分析与处理中有望得到比传统方法更好的性能。提出了一种基于分数阶Fourier变换的谱图分析方法,并将其应用于鸟叫声信号/语音信号的时频分析中;针对美尔频率倒谱系数缺乏捕捉语音中快速变化成份的能力这一缺点,将MFCC与FrFT相结合得到了分数阶MFCC声学特征;提出一种语音的AM-FM模型,然后根据该模型与语音信号的FrFT谱图提出了若干种基于语音的基音和共振峰参数的阶数选择方法;将听觉模型融入到声学特征提取框架中,同时结合信号的各种瞬时信息以改善识别结果;将Gammatone滤波器组与FrFT相结合来提取声学特征并用于语音识别,其中Gammatone滤波器组采用时域和频域两种实现方式;将分数阶Fourier变换应用到混叠语音基音频率检测中;在传统谱减法的基础上提出基于最小统计估计准则的分数阶谱减法以用于语音增强。构造了各种特定的数据库并设计了合理的实验架构,结果表明提出方法取得较传统方法更好的性能。
英文主题词Speech recognition; Time-frequency analysis; Speech enhancement; Speech separation; Fractional Fourier transform