1 标题、来源、作者信息
Deep Reinforcement Learning-based Rate Adaptation for Adaptive 360Degree Video Streaming
Published in: ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
All Authors:
Nuowen Kan, Junni Zou, Kexin Tang, Chenglin Li, Ning Liu, Hongkai Xiong∗
School of Electronic Information & Electrical Engineering, Shanghai Jiao Tong University, China
2 背景
1.提供身临其境感的360度视频越来越受欢迎
2.与传统视频相比,360度视频具有更高的分辨率
3.在自适应360度视频流中,错误的视场预测可能导致基于视场预测的缓冲区预取内容与观众真实视场覆盖的内容不匹配
3 挑战
1.360度视频的更高分辨率在当前网络环境传输中中,这可能会出现重新缓冲,必须在视场切换延迟、带宽效率、视频播放质量和再缓冲风险之间进行权衡;
2.当直接将基于DRL速率自适应算法应用于基于tile级别决策的360度自适应视频流时,可能会出现组合爆炸的问题。
4 贡献
1.提出了一种基于DRL异步优势actor-critic (A3C)算法的速率自适应算法。其中,定义了一个特定于自适应360度视频流的QoE指标,通过引入一个惩罚术语来阻止大缓冲区占用,以减少可能的FoV切换延迟。
2.为了缓解组合爆炸,我们提出了一种可扩展的FoV方法,如图1(a)所示,根据贴图的观看概率将360度场景划分为多个可扩展的FoV,其中相同FoV中的贴图被分配相同的比特率。
5系统建模
如果Bk−dk为负,则客户端缓冲区中没有剩余视频,并且块Ck尚未完全下载,这称为重新缓冲事件。相反,如果Bk−dk为正,则缓冲区中会预取一些未来的块,如果fov预测错误,这将导致可能的FoV切换延迟。
β控制限制客户端预取块的强度,λ和μ分别是重缓冲时间和质量变化的惩罚权。最后一项是视频质量变化的平滑项。
QoE建模的第二项,把Bk-dk的差作为一个惩罚项,作者意思是正常视频播放的话,即使我fov切到这里了,系统也知道我切到这了,但也得把缓存区的视频播放完再播放当前fov的新质量级别的视频。但我感觉不是很合理。虽然如果fov预测错误,切换fov时看到的画面与自己需要的不一样会影响qoe。但毕竟fov的预测还不一定错误,这种情况下,缓存多了是一种对抗网络波动的好事。
下面深度学习的细节千篇一律,不做过多叙述。
6 实验结果
6.1比较算法
与以下算法进行了比较:
1)基于速率的算法(rate-based algorithm, RB),它通过历史统计数据预测吞吐量,然后在预测吞吐量下选择最高的可用比特率;
(2)枚举算法(EN),该算法通过对缓冲区占用情况的观察和吞吐量的预测,以枚举的方式选择下一个数据块中最大给定QoE指标的比特率;
3) DQN,它与我们的算法相似,只是它使用深度Q-learning来学习策略,而不是A3C。
6.2 数据集
本文使用的网络吞吐量轨迹数据集包括宽带数据集(FCC)和3G/HSDPA移动数据集。这两个数据集在文献[3,11]中已经使用。
[3] X. Yin, A. Jindal, V. Sekar, and B. Sinopoli, “A control-theoretic approach for dynamic adaptive video streaming over HTTP,” SIGCOMM Comput. Commun.
Rev., vol. 45, no. 4, pp. 325–338, Aug. 2015.
[11] H. Mao, R. Netravali, and M. Alizadeh, “Neural adaptive video streaming with pensieve,” in Proceedings of the Conference of the ACM Special Interest Group on Data Communication, New York, NY, USA, 2017, SIGCOMM ’17, pp. 197–210, ACM.
6.3 结果
图2显示了在两个数据集中测试的平均QoE(即吞吐量跟踪上的QoEk平均值)上的累积分布函数(CDF)。可以看出,我们的算法在选择比特率和比其他算法更高的平均QoE时总能实现最优权衡。
相比之下,本文算法的平均QoE比FCC数据集中的其他算法至少高出13.7%,比3GP/HSDPA数据集中的其他算法高出20.1%。
结果表明,该算法能够很好地平衡视频重缓冲事件和视场切换延迟。此外,我们的算法比其他算法具有更高的质量效用,同时保持了较低的重新缓冲代价和缓冲区代价。图3(b)显示,QoE度量中缓冲区占用的惩罚项有效地限制了回放缓冲区(即减少了可能的FoV切换延迟),而对再缓冲惩罚的影响很小。