语音是人类进行思想交流最便捷的工具。语音信号由音位(或其它基本声学单元如音节等)衔接而成,其中充满了因各种各样复杂原因导致的语流音变现象。根据音位是否变异可划分为"声学变化"和"音位变异"两大类。能否处理好这两类语流音变现象,是语音识别技术保持高识别精度、走向实用化的关键。本课题在充分分析当前汉语语音识别系统处理语流音变问题技术的基础上,提出从人脑处理语流音变现象的听觉机制出发,来研究更合理地处理语流音变现象的语音识别技术。具体研究内容包括1.构建描述音位区分性的计算模型该指标用来模拟先验的语言结构知识对于音位的词汇标志作用的影响。2. 不同颗粒度识别基元区分性的评价 ;3.基于音位区分性的发音识别词典;4.基于上述技术的识别系统构建和多任务测试。本课题对于语音识别技术研究、语流音变规律研究、语流音变的认知机制计算模型等研究有着重要的理论和实践意义。
coarticulation variation;functional load;perception and cognition;speech recognition;phonetic distinction
语音是人类进行思想交流最便捷的工具,但充满了复杂的语流音变现象。我们提出探索人脑处理语流音变的听觉机制,进而研发符合人脑听觉机制的语音识别技术。具体内容包括1.构建描述音位区分性的计算模型;2.探索语流中的音变特点以及人脑的听知觉加工机制;3.设计基于音位区分性和听知觉机制的语音识别新方法;4.应用研究。关于音位区分性计算模型,我们提出了基于n-gram语言模型和候选词阵列的音位功能负载(FL)新算法,也是世界上第一个能够建模语境下音位区分重要性的量化算法。我们利用大规模语料库评价了所有声母、韵母、声调对立的FL,并与传统算法进行了对比。结果表明所提模型具有评价指标动态范围较小、稳定可靠的优点,并且还具有可跨语料库比较的独特优势。另外,我们又开展了基于FL的基元聚类和基于语音知觉聚类的比较研究,发现声母的两类聚类树呈现了语音刺激的物理区分性和信息承载重要性的高度一致性特点,为认知语言学的重要理论假设提供了一个量化佐证。针对语流音变及听知觉机制问题,我们研究了语流的时长变化(节奏)、语流声调变化、协同发音和韵律边界的交互作用、前后鼻音韵母的知觉线索、声调的知觉线索、语谱中的嗓音特征效应、不同人群的听觉机制对比等问题。我们发现汉语、日语及日本人汉语具有明显的时长节奏差异;阳平双音节词的斜率参数与重音、韵律边界有着显著关联;汉语相邻音节可以基于H&H理论假设来判断协同发音的强弱以及韵律边界的有无;鼻韵母的鼻化元音段含有对于汉语母语者来说最关键的听辨线索;阳平上声的知觉线索是音域的高低,前后调境对于被试的声调知觉有着重要且复杂的影响;语谱中含有丰富的嗓音信息,可以在音高特征缺失的时候有效帮助声调知觉;中日被试关于汉语声调、各种音段的知觉有着显著的差异等。基于上述发现,我们研究了基于不同识别基元、发音词典的语音识别技术,又探索了基于节奏特征的语种识别、基于知觉关键线索landmark的语音识别新方法,在基于HMM或DNN的各种语音识别任务中都取得了性能改善。除了传统的语音识别应用外,一些成果被应用到研发新的计算机辅助发音学习技术,包括发音偏误检测、知觉检测和知觉训练、节奏的自动评价等,取得了良好的应用价值。发表论文42(EI/ISTP:17,其中期刊6,国际会议19,国内会议17),专利申请6(授权5),待发表论文及专利若干。