语音识别是人机交互最自然、最方便的手段,有着重要的研究价值和应用前景。在基于HMM的传统声学建模中,由于状态输出独立假设和串珠假设并没有充分考虑语音学知识,语音的声学结构和发音结构没有得到科学的描述。本项目旨在突破这些局限,结合语音学知识,研究基于贝叶斯网络改善描述语音声学结构(表现为声学特征的时间依存性结构)和发音结构(表现为由并行发音特征流表征的松耦合异步结构),进行精细结构声学建模,更准确刻
本项目旨在突破语音识别基于HMM传统方法的局限,结合语音学知识,研究基于贝叶斯网络进行精细结构声学建模,更准确刻划语音的特性。为此,我们认真审视了基于HMM传统声学建模的多个方面,取得如下成果1)提出多预测组合时间依存性模型,突破HMM的状态输出独立假设,并提出相应的说话人自适应算法。2)提出基于动态贝叶斯网络融合多辅助信息的语音隐层建模,实现了并行多辅助链以突破串珠假设,取得了语音识别性能的显著改进。3)提出精细参数结构声学建模,取得了更好的语句自适应效果。4)提出紧耦合结构麦克风阵列语音识别声学建模,在国际上公开数据库(MONC)上取得比国际同行好得多的识别效果。5)提出Hierarchical Message Passing算法、Rolling-voting算法,自主设计和开发了一个高效的图模型工具包(PyGM),准备开源发布供同行使用。本项目培养了3名博士、2名硕士。在IEEE Transactions on ASLP、IEEE SPL、ICPR06、IEEE SMC06、ICASSP07、NCMMSC05优秀论文等共发表 8篇论文,其中2篇SCI、2篇EI、3篇ISTP。