本项目以视频流媒体为研究对象,提出了视频流媒体播出质量服务关键技术的解决方案。在视频内容分析的基础上,采用半监督学习方法进行场景分类,根据同类场景具有近似的视觉特征和特征通道线性组合权值,提取视觉敏感区域;提出基于内容感知的MGS多层调适编码方案,调整编码结构,定量描述视频编码层数据包的重要性;用贪婪算法优化视频数据包调度;选择网络时延、抖动和丢包率为度量参数,提出一种类BFS服务质量选路算法;基于改进的拉格朗日代价函数确定FMO容错编码模式,基于一致性因子确定差错隐藏预测模式;引入自适应模糊神经推理系统,确定应用层和网络层参数,训练神经网络节点,提出模拟主观评价的视频质量度量指标SSVQM,以量化的形式反映人的主观视觉感知。本项目旨在解决有限带宽、视频质量和用户实时性访问之间的平衡问题,从而提高视频流媒体的播出质量。
本项目以视频流媒体为研究对象,提出了融合视频内容分析和视觉感知特性的可伸缩视频播出质量服务方案。在基于内容的视频描述和视觉感知特性分析的基础上,应用视频场景分类器选择视觉敏感区域的特征通道及其权值,使得提取的视觉敏感区域更为准确。根据视觉敏感区域确定可伸缩码流片层数据重要性以及编码优化算法,以低复杂度实现视频流媒体中粒度可伸缩(Medium Granularity Scalablity,MGS)编码方案优化,使解码后的整体视频质量峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)提高0.3-1dB。基于人眼视觉注意检测模型分析眼动策略,结合显著计算得到图像注视区域结果,提出可伸缩编码(Scalble Video Coding,SVC)增强层码率分配算法,在有限带宽条件下有效提升视觉敏感区域的解码质量,较其它区域提高3-4dB。在可伸缩码流传输方面,分析SVC的视频码流结构,在综合考虑兼容性、协议格式和负载结构的基础上,实现了SVC的实时传输协议(Real Time Transportation Protocal,RTP)封装。基于运动特性对视频数据包排序,注意力加权的峰值信噪比(Attention Weighted PSNR,AW-PSNR)提高了0.3dB,提升数据包调度与视觉感知的一致性。选择三个能较好地反映视频流媒体服务质量(Quality of Service,QoS)要求的度量参数链路下限带宽、节点时延和节点丢包率,提出了一种基于可行性估计的启发式算法,优化QoS选路的结果。采用RTP封装的拷贝恢复的差错隐藏方法,补偿丢失的质量增强层数据,提高视频的播出质量。在视频质量评价方面,提出了一种反映主观视觉感知的客观视频质量评测指标ESTIM(Evaluation Based on Spatio-Temporal Integration Map,ESTIM),融合视觉注意、视觉掩蔽效应等人眼特性及视频质量稳定性等因素,从时空域进行失真分析并综合计算视频的整体失真状况,实验结果表明本项目提出的主观视频质量计算指标更符合人眼主观评价结果。