本申请通过分析现阶段语音识别技术的发展趋势,并结合数字奥运"多语言智能信息服务系统"项目对多语种语音识别进一步发展的实际应用需求,在国内首次提出"多语言混合语音识别关键技术研究"前瞻性应用基础研究课题。主要研究在统一识别框架下的多语言混合语音识别与模型自适应技术,研究和解决多语言环境下的基础语音基元集定义、多语言声学和语言建模等一系列跨语言语音识别须解决的问题。具体研究定位在以目前多语言信息服务系统中的多语种单语识别为基础实验平台,深入研究面向特定领域(奥运信息服务)、支持特定语言(中、英、日)混合的交叉语言和跨语言识别关键技术研究上。预期本课题研究的实现目标为:与各语种单语识别系统相比,多语言混合识别系统准确率降低不超过5%。本课题的研究将进一步改善和提高现阶段多语言信息服务系统的性能,为该项目提供必要的技术储备,为2008奥运会的成功举办增光添彩。具有重要的理论研究价值和实际应用前景。
本项目主要研究在统一识别框架下的多语言混合语音识别与模型自适应技术,研究和解决多语言环境下的基础语音基元集定义、多语言声学和语言建模等一系列跨语言语音识别须解决的问题。经过三年的努力,在多语言混合语音识别方法研究和实际应用方面都取得了重要进展。在语音预处理技术研究中,提出一种两级说话人变换点切分模式和一个基于多特征的SVM音频分类学习算法;在多语言混合语音识别技术中,主要研究了基于IPA的语种无关声学建模单元集自动归并方法和基于优化的建模单元的多语言混合声学和语言建模技术,引入语言有关的问题,改进了普通的决策树建模算法,实现了一个支持多语言语音识别的搜索引擎,建立了多语言混合语音识别系统,可支持中、英、日语音交流环境下的口语语音识别,限定领域,中词汇量环境下识别率可达到约84%;通过目标语言快速移植方法,开发了蒙古语语音识别系统。项目主要技术已成功集成于"奥运多语言信息服务平台"中,并与CSTAR合作开展了多国语音翻译共同实验。项目研究成果已在国际国内期刊和会议上发表论文13篇,申请专利2项,软件著作权1项。研究工作进展顺利,项目合同书所规定的研究内容和目标已按计划全部完成。