本课题将在深入研究音频信号的非线性时频特征基础上,引入非线性动力学中相空间重构理论,研究音频信号频域信息的相轨迹演变规律和高低频相关特性,最终在不传输或少量传输附加信息的条件下,实现由宽带(7kH)到超宽带(14kHz)音频信号的频带扩展算法。预期实现的算法可以和任何带宽为7kHz的音频编码器结合,重构具有超宽带的音频信号,降低宽带向超宽带音频通信过渡所带来的额外设备成本,满足未来高质量移动音频信号传输和存储的广泛需求。
audio coding;bandwidth extension;nonlinear dynamics;machine learning;speech coding
本课题针对移动音频通信系统中带宽受限所导致的音质严重下降问题展开研究,基于音频信号的非线性特性,结合非线性动力学分析理论以及机器学习方法,提出了多种由宽带到超宽带音频信号的频带扩展算法,包括基于混沌预测的音频频带扩展方法、基于最近邻匹配的频谱细节恢复方法、基于高斯混合模型和隐马尔科夫模型的高频谱包络扩展方法、基于软判决矢量量化的语音频带扩展、基于Volterra级数预测的频谱细节恢复方法、基于非线性特征分析的音频分类方法、耳蜗滤波器倒谱参数的提取方法、基于自组织特征映射的音频频带扩展方法、基于径向基函数神经网络的音频频带扩展方法、基于相似关联度神经网络的音频频带扩展方法、基于灰色模型的音频频带扩展方法以及基于分形预测的音频频带扩展方法等,并综合上述方法和技术,开发出了一套完整的宽带向超宽带音频频带扩展方法。经ITU-T认证的北京理工大学通信技术研究所进行标准化评测,本课题所提出扩展方法的主客观性能达到了全部技术指标要求。