本项目将以听感知和言语知觉机理的最新研究成果为基础,基于心理声学、语音学、语音识别、语言理解等相关理论和方法,开展跨学科研究,具体研究包括1、听觉掩蔽机理及抗噪方法研究;2、双耳目标定位及增强计算模型;3、行车环境下鸣笛声检测定位与识别;4、限定领域说话人无关汉语语音识别和理解方法的研究。项目预期取得若干具有自主知识产权的技术成果,对我国无人驾驶汽车领域相关技术的发展将会起到促进作用,并推动其实用化、产业化进程。对听知觉机理基础研究以及声音信号处理、语音识别、自然语言理解等相关技术领域的发展起到积极的推动作用。
auditory mechanism;auditory computational model;auditory localization;speech recognition;anti-noise
本项目以听感知和言语知觉机理的最新研究成果为基础,开展跨学科研究。以开发具有较高准确率及鲁棒性的鸣笛和语音的检测、定位和识别系统为目标,围绕所涉及的关键科学问题a) 行驶车流中周围车辆的各种鸣笛的识别、理解和定位,b) 噪声信号分离以及交通信息提示语音的自动检测、识别和理解,展开深入研究,取得一系列重要进展,主要包括 1、基于涉身认知的头传递函数学习和复杂声场多声源定位探索了蝙蝠回声定位若干机理,提出了新的基于头传递函数的双耳加工模型及声源定位抗混响双耳模型,以及基于动态滤波器组调频谐波的主动听觉检测方法。于2012年发布了目前国际上最完整的包括近场和远场的Kemar头传递函数库PKU-IOA,并于2013年9月在爱尔兰召开的第16届数字音效国际会议上作拓导报告。 2、汉语大词汇量连续语音识别、广播语音数据自动切分及对话系统在分析“启动效应”在语音知觉中的作用基础上,提出了基于潜说话人模型的语音识别,及语音/音乐的自动切分方法。提出的DNN-HMM语音声学模型学习新方法,获2014年ISCSLP2014国际学术会议最佳论文奖。 3、基于大规模非标注数据的语音合成采用句法标注替代传统的韵律结构标记,提出融合句法结构线索的韵律建模方法,突破了传统方法必须依赖耗时又费力的韵律标注过程。在2013年Blizzard2013国际语音合成评测终获全球第一的成绩。 4、基于增强学习的仿人机器人运动技能的自主学习为探索无人驾驶车辆涉及的移动车辆智能控制技术, 研究了仿人机器人移动控制策略的建模及学习问题。在轨迹层次化建模的基础上,研究了仿人机器人基本运动技能的自主学习及已有知识的迁移学习,获2013年国际人工智能联合会IJCAI2013举办的国际机器人技能大赛一等奖。本项目搭建了一套车辆声源定向与增强系统平台,在实际路面行车环境中对所取得的研究成果加以验证,表现出很好的性能。本项目研究发表学术论文42篇,其中国际期刊论文10篇,国内期刊4篇,国际会议27篇,国内会议1篇;申请国家发明专利3项;主办国际学术会议5次,累计参会人数达320人次;先后邀请境外4名学者在京开设研究生课程1门,暑期课程1门;参加国际学术交流30余次。项目所取得成果对我国无人驾驶汽车领域相关技术的发展将会起到促进作用,对听知觉机理基础研究以及声音信号处理、语音识别等相关技术领域的发展起到积极作用