以交通语音诱导信息的识别与辅助无人驾驶车行驶路径规划策略为研究对象,采用音频识别技术、关键词检出、自然语言理解、路径规划决策等方法,进行广域听觉环境建模、无线电信息监听、锁定敏感信息、交通诱导信息识别及如何辅助无人驾驶车辆行驶路径规划等研究,阐明无人驾驶车辆利用交通语音诱导信息来辅助行驶路径规划的机制,为无人驾驶车辆的听觉建模及更丰富、更智能的获取交通信息奠定理论和应用基础,并最终在无人驾驶车辆验证平台上实现,揭示视听觉认知计算的听觉认知规律。
Automatic Speech Recognition;speech enhancement;Shallow Parsing;Path planing;
无人驾驶车辆是视听觉信息计算技术展示平台,“听觉”作为重要的信息获取手段,能够完善无人驾驶车辆对行车环境的感知和理解。交通语音诱导信息属于广域范围的听觉内容,无人车辆通过监听广播信息而锁定有效的交通信息,并将这些信息传递给路径规划模块,动态地修正路径规划。本课题研究促进了人工智能、语音/音频识别、自然语言处理、路径规划等关键技术在无人车平台上的融合发展,将智能化无人车的听觉能力提升了新的层次。课题主要研究工作包括 (1)本研究建立了广播信道下的交通语音诱导信息数据库,总计共36小时,包括近2万条对话口语句子,包含7936条有效交通信息,含有38个说话人(21女/17男),并进行了三层人工标注。这些数据可用于对无人车“听觉”系统进行训练、自适应和测试,相关论文在语音处理领域的会议上发表,受到国内外同行关注,为国内外少有的数据资源。 (2) 在语音增强研究方面,基于非负矩阵分解(NMF)的半监督方法,提出了一种说话人无关背景音乐类型相关的语音和背景音乐分离算法,得到了相比于一般说话人无关的语音和音乐分离系统更好的分离效果,有效地改善了后续语音识别系统性能,得到领域内同行认可。基于计算音频场景分析(CASA)模型,设计了一种话音激活检测(VAD)算法,在低信噪比、非稳定音乐噪声的环境下体现出良好性能,优于近年发表的3种VAD方案,相关论文得到国际同行关注。 (3)结合目前国际主流技术,设计针对真实交通广播语音的识别及理解方案。设计了包括2245个关键词的语音识别、浅层语义分析模块,其中采用了CRF对关键词序列进行序列标注及提取语义,最后输出格式化的交通信息。达到了音节识别率56.4%、关键词识别F值48.2%、整句信息正确率10.2%的性能。以上工作在国内外交通信息提取的应用领域具有新颖性。 (4)建立了基于XML的路径规划拓扑地图数据库,并实现了多点路径规划以及路口点的动态规划方法,采用张量分析对交通流量分析开展了深入研究,同时,设计了结构化交通信息与路径规划模块的接口,将语言传递的交通信息融合入路径规划流程。以上工作的相关论文得到了领域同行的关注。 项目已发表学术论文32篇(含3篇SCI, 29篇EI),专利3项。培养博士生2人,硕士生8人。