深入、系统开展面向语音识别应用的汉语语音知识研究,其中包括探索最适合表征声源PF、发音方式PF和发音位置PF的汉语辅音(声母)APs特征,进而实现汉语辅音的最佳分类,并应用于汉语语音流中声学建模单元Landmarks的标定,提高段模型汉语语音识别声学建模和解码搜索的精度和效率;系统、深入研究全路径模式表征方式的全局最优准则指导的段模型汉语语音识别方法,探索出一条更准确表征语音流发音规律、优于传统优化准则的统计语音识别方法的新途径,使基于段模型语音识别方法无论是在解码搜索、还是在声学建模等方面实现大的跨越,最终的集语音知识和全局最优准则指导的段模型汉语LVCSR系统的误识率比HMM系统至少下降20%,且系统能够达到实时响应。本项研究对于探索语音识别研究的新方法具有重要的学术价值、对于开发出在公众信息服务领域(如通信、金融、娱乐、教育和互联网等)语音识别系统具有良好实用价值和广泛应用前景。
英文主题词Segment model;speech recognition;speech knowledge;global optimal criterion;landmarks