基于电话语音的少数民族语言识别研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于电话语音的少数民族语言识别研究

项目名称：基于电话语音的少数民族语言识别研究
项目类别：地区科学基金项目
批准号：60865002
申请代码：F030404
项目来源：国家自然科学基金
研究期限：2009-01-01-2011-12-31

项目负责人：杨鉴
负责人职称：教授
依托单位：云南大学
批准年度：2008

中文摘要：

随信息技术的快速发展，基于电话的多民族语信息查询系统、民族语口语翻译系统的需求有快速增长的趋势，而民族语言识别是这些系统不可缺少的组成部分。在本项目之前，国内外的语言识别研究基本围绕两个较通用的语音数据库中所包含的十几种语言进行，几乎不涉及其它语言。在我国少数民族语中，大量地、随意地使用汉语借词，因此，中国少数民族语的语言识别区别于典型的语言识别，同时兼有语言识别和口音识别，此类研究以前尚未见报道。本项目开发完成"民族语电话语音数据库的录制软件"，选择壮语、苗语、维吾尔语、彝语、蒙古语、藏语、白语、傣语和纳西语等9个具有代表性的少数民族语及汉语普通话，构建完成"民族语电话语音数据库"。基于未进行语音学标记的"民族语电话语音数据库"，研究民族语识别方法，设计实现训练算法和识别算法。分别开展基于支持向量机的语言识别，基于高斯混合模型的语言识别，汉语借词对少数民族语识别的影响，采用MMI估计准则实现民族语语种识别，以及基于CV结构及其声学特征的少数民族语种识别等方面的研究工作，取得一批重要的研究结论。本项目已有效拓宽了语种识别的研究范围，并将推动现代信息技术为广大边疆少数民族同胞服务。

中文主题词：语言识别；少数民族语；电话语音；语音数据库；汉语借词

结论摘要：

英文主题词Language identification; China's minority languages; Telephone speech; Speech Corpus; Chinese loanwords

成果综合统计