飞速发展的移动市场对高品质音频业务的需求日益迫切,移动环境带宽波动大、频率和终端计算资源有限,传统音频理论面临着新的挑战。近年来,ITU、MPEG等国际标准化组织积极推动移动音频理论和技术研究,重点克服格型矢量量化、带宽扩展和空间音频参数模型等方面的理论缺陷,提升移动音频信号还原质量。本项申请研究格型量化高阶码本扩展技术,突破12~24kbps范围内的精细可分级技术瓶颈,预期平均分段信噪比高于最新的AMR-WB+0.1dB。引入感知模型丰富传统带宽扩展技术,解决高频边信息大动态范围导致音质下降的难题,在同等码率下获得高于AMR-WB+的主观质量,在同等质量下与SBR方法相比降低50%的计算复杂度。针对空间音频参数模型理论的缺陷,提出并实现具有频率依赖特性的空间参数扩展模型,将MOS分与MPEG环绕算法相比提高0.2~0.5。成果可成为国内移动音频标准的支撑技术,争取成为国际标准的一部分。
mobile audio;spatial audio coding;bandwidth expansion;scalable Coding;dropped frames recovery
移动网络的异构化和移动服务的多元化给移动音频编解码技术带来巨大挑战移动网络带宽受限导致低码率下重建音质不佳;异构网络下带宽波动导致带宽资源利用不足、服务质量低下;无线信道不可靠引起丢包和误码导致重建音质受损严重。空间音频编码、带宽扩展、可分级编码和音频信号丢包恢复技术,能够实现音频信号的高效编码、带宽的高效利用和可靠的服务质量,成为移动音频领域发展的主要趋势。在空间音频编码方面首次将人耳对音频信号的感知由能量域拓展到参数域,建立空间心理声学模型,首次提出空间感知熵及度量方法,实现低码率下立体声的高质量重建。研究成果被MP3发明单位Fraunhofer IIS和Dolby实验室等引用, SCI期刊JWCN评价“所做工作具有启发性,对多媒体通信、特别是空间音频领域做出了实质性贡献”,获得ICME 2009优秀奖(唯一中国获奖者)。在本领域持有专利数居全国第一。在带宽扩展方面针对不同类型的信号,提出多模式预测算法,用于语音音频混合信号的高频扩展,同等码率下质量优于最新国际移动音频编码标准AMR-WB+,相关成果发表在国际权威会议和期刊(AES、Trans),应用于车载多媒体通信系统,获2009年教育部科技进步二等奖。在其他核心技术方面提出基于感知测度联合判别模型的可分级编码技术,有效提升低码率下分级编码质量;提出局部相似性替代帧选择算法和长时相关近邻帧选择算法,在无线信道丢包环境下有效改善重建音质。相关技术成为AVS移动音频标准核心技术,获吉林省科技发明二等奖。主持制订我国首部具有自主知识产权的移动音频国家标准AVS-P10,并提供多项核心技术提案,该标准已完成送审报批,并成功入选IEEE移动音频标准(IEEE AVS P1857)。应用推广方面基于iOS的汉语言多媒体教学系统在孔子学院试用,用户认为对促进汉语言教学有良好的辅助作用;车载音频流媒体系统在丰田汉兰达上试用,实现了流畅的多声道音频点播服务。本项目实施过程中,在本领域权威期刊和顶级会议上发表论文63篇,其中国际期刊(IEEE Trans、JWCN等)论文29篇、顶级会议 (ICASSP、ICME等)论文34篇;申请发明专利44项,其中授权24项;培养博士生8名,硕士生20名;积极参加本领域主流国际会议,邀请国外专家访问,进行了深入的学术交流与合作。