随着人们应用期望值的日渐提高,音频内容趋于多样化与复杂化。心理学研究表明人们在复杂声场环境中具有选择性的听觉关注机制,而现有仅基于声学掩蔽模型和底层声学显著性特征的传统音频质量评价方法与真实主观听觉感受存在较大差异,面临新的挑战。将心理选择关注机制引入质量评价体系更符合人的听觉特性,但其主观个体差异性的干扰问题更突出。另外听觉关注是自顶向下(基于场景信息)和自底向上(基于声音显著度)两种机制交互作用的过程,存在场景信息和底层声学特征参数自上而下的关联问题。针对以上问题本项目拟采用基于场景要义的听觉特征属性分割和神经网络认知模型相结合的方法,从不同角度评价音频质量以解决主观个体差异性的干扰问题,提高基于听觉关注度的音频质量主观评价方法的准确度;同时通过建立基于训练集学习的听觉关注度图,以及听觉关注度失真测度,拟合主客观评价结果,最终建立复杂声场环境中符合人类心理选择注意机制的客观评价模型。
auditory assessment;mobile audio;auditory attention;psychological attention mechanism;
本项目针对目前音频质量评价方法未考虑心理关注机制的问题,研究基于听觉关注度的音频质量评价方法。探索人类的心理关注机制和音频质量评价的交互影响机理,将人类的心理选择关注机制引入到客观评价模型,以关注失真测度反映最终客观评价结果,建立复杂声场环境中符合人类心理选择注意机制的客观评价模型。 首先建立了基于抖动失真的移动音频质量客观评价模型,该模型在传统的 PEAQ算法中引入能量均衡和抖动失真测度,解决移动音频通信的质量评价问题。在指定码率,四种丢包率条件下的测试结果表明模型输出的客观评价与主观测试相关度可达到 90.1%,比传统算法提升了16.1%。相关成果发表在多媒体质量评价专题国际会议( QoMex),该成果技术提案被AVS国家标准组织接受。 其次建立了听觉关注度的移动音频客观评价模型,主要在主观评价测试数据基础上加入了 9个空间音频水平方位参数和针对关注音的输入参数,用神经网络拟合建立客观评价模型。在四种典型场景,八种码率模式的测试集中,最终模型输出的客观质量与主观听音测试相关度达到 91.2%,比基于抖动失真的算法提升 8.1%。该模型引入人类的心理声学关注机制,提高了复杂声场客观评价与主观评价的相关度。相关成果发表在国际权威会议( ICASSP)。 此外针对音频网络传输应用建立了无参考质量评价模型。该模型在建模时增加误码包的音频类型检测,与有参考质量评价模型的相关度达到 87.2%,比原有算法提升了7.3%。相关成果发表在国际权威会议( MMM, HPCC)。 本项目实施过程中,在本领域相关会议和期刊上发表论文11篇;并申请国家发明专利 8项,其中授权5项; AVS 国家标准技术提案 1项,该技术提案已被 AVS国家标准组织接受。