随信息技术的快速发展,基于电话的多民族语信息查询系统、民族语口语翻译系统的需求有快速增长的趋势,而民族语言识别是这些系统不可缺少的组成部分。在本项目之前,国内外的语言识别研究基本围绕两个较通用的语音数据库中所包含的十几种语言进行,几乎不涉及其它语言。在我国少数民族语中,大量地、随意地使用汉语借词,因此,中国少数民族语的语言识别区别于典型的语言识别,同时兼有语言识别和口音识别,此类研究以前尚未见报道。本项目开发完成"民族语电话语音数据库的录制软件",选择壮语、苗语、维吾尔语、彝语、蒙古语、藏语、白语、傣语和纳西语等9个具有代表性的少数民族语及汉语普通话,构建完成"民族语电话语音数据库"。基于未进行语音学标记的"民族语电话语音数据库",研究民族语识别方法,设计实现训练算法和识别算法。分别开展基于支持向量机的语言识别,基于高斯混合模型的语言识别,汉语借词对少数民族语识别的影响,采用MMI估计准则实现民族语语种识别,以及基于CV结构及其声学特征的少数民族语种识别等方面的研究工作,取得一批重要的研究结论。本项目已有效拓宽了语种识别的研究范围,并将推动现代信息技术为广大边疆少数民族同胞服务。
英文主题词Language identification; China's minority languages; Telephone speech; Speech Corpus; Chinese loanwords