位置:立项数据库 > 立项详情页
面向语音处理的言语声学数字化建模
  • 项目名称:面向语音处理的言语声学数字化建模
  • 项目类别:国家杰出青年科学基金
  • 批准号:10925419
  • 申请代码:A040506
  • 项目来源:国家自然科学基金
  • 研究期限:2010-01-01-2013-12-31
  • 项目负责人:颜永红
  • 负责人职称:研究员
  • 依托单位:中国科学院声学研究所
  • 批准年度:2009
中文摘要:

代表性工作(1)提出了用发音动作序列来描述语言特征的方法及相应系统框架,构建了当时国际最好的语种识别系统,所提方法和框架至今被广泛采纳;从发声机理出发提出了普通话发音质量客观评价模型,取得了和国家级测试员相近的评判水平,成果已实际应用于香港地区普通话考试;提出了词法和状态网络相结合的搜索策略,在相同精度下比当前国际主流软件速度快三倍、内存少一半;提出了音乐分析和建模方法,构建了领先的哼唱搜索系统并率先实用。(2)在国际普遍采用的语音研究水平和综合实力评价体系中(863、美国标准局等权威机构组织的系统评测)多次取得第一。(3)研究成果打破了国外公司对中国语音识别市场的垄断,在民用和国家安全领域得到规模应用。06年中科院百人计划结题被评为全院第一并获优秀称号,07年入选新世纪百千万人才工程国家级人选,08年获科学院朱李月华优秀教师奖。持有21个授权发明专利,近五年发表60篇SCI/EI文章。

结论摘要:

本项目主要研究了语音信号与信息处理,包括语言声学,发音建模,声学建模和语音识别等,以及相关的应用。通过把语言声学的研究成果用于指导语音处理的新方法,提出了适合计算机处理的数字化特征及其建模,来推动音频处理,特别是语音识别等核心技术的发展。主要创新点包括(1)在听感知机理方面,系统性地研究了语言信息对语音信号处理算法性能的影响。研究发现,语言信息对语音信号处理系统有重要影响;语音信号处理系统应该根据语言的不同进行调整和优化;在语音信号系统的设计及优化过程中,应该充分考虑语言相关的信息。(2)在语音信号分析方面,采用马尔可夫随机场和快速分层稀疏,分别构建语音频谱的二维相关性模型,使两个维度上的相关性形成内在关联,并建立模型估计缺失频点与可靠频点间的相关性强弱,作为优化重建算法的依据。(3)在发音特征建模方面,通过在汉语普通话大词表非特定人自然口语对话语音识别系统中引入符合普通话特点的发音特征,建立相应的声学模型,并和基于频谱特征的声学模型进行融合,实现了汉语普通话识别系统性能的大幅度提高。(4)在言语生成方面,通过分析短时频谱的高阶统计量即谱矩,有效区分不同发音部位和发音方式的音素。该声学特征可以用来定量描述语音(尤其是辅音)中的多种细微变化。(5)在基于源-滤波器模型的声门波估计方面,进行了长元音和连续语音分析相结合的研究,并借助统计模式分类理论,建立了高信度的多维嗓音客观评估模型。在本项目的支持下,取得了一系列成果。包括培养研究生28名,其中博士25名、 硕士3名;发表论文114篇其中SCI索引28篇,EI索引76篇;申请专利27项,授权24项。有关成果获省部一等奖三项,三等奖一项。本项目的研究成果得到了广泛应用。一方面,通过与国内外企业(如互联网龙头企业百度、腾讯和阿里巴巴等)的合作,在市场上得到规模应用。另一方面,在多个国家级工程项目中得到实际应用并发挥了重要作用。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 81
  • 59
  • 0
  • 0
  • 0
期刊论文
会议论文
相关项目
期刊论文 111 会议论文 69 获奖 6
颜永红的项目
期刊论文 111 会议论文 69 获奖 6