视频预测相关文献
- Nitish Srivastava等使用LSTM网络替代RNN网络来学习视频序列的表示,从而减少梯度消失、梯度爆炸的问题。该模型使用一个编码器将输入序列转换为固定长度的表示,然后使用LSTM网络来将提取的固定长度的视频序列表示解码完成输入视频序列的重构和将来视频序列的预测。该模型同时比较了原始图像和使用分类网络提取的网络表示作为网络输入时预测的精度,结果显示通过使用监督学习网络学习到的特征作为输入不能提升视频重构的结果,但是能提升预测的精度。
- Michael Mathieu等通过对loss函数的改进来探索学习到更好的视频结构表示从而提升预测精度。标准的MSE loss函数训练得到的模型存在预测视频序列模糊等问题,Michael Mathieu等提出多尺度架构,对抗训练方法和一个基于图像梯度差分loss函数这三种不同的学习特征策略来得到更好的结果。 (本文同时和Ranzato的结果比较)
- William Lotter等借鉴了神经科学领域的预测编码构建了一个预测编码神经网络,并在合成视频序列以及自然视频序列中预测下一帧视频,使用了Conv-LSTM-DeConv的架构进行像素级预测。
- Nal Kalchbrenner等提出了一个概率视频模型VPN来估计原始像素值在视频中的联合概率分布。VPN网络模型编码了时间、空间、视频张量的颜色结构,并在Moving MNIST benchmark上获得了可能理论上最好的性能,大大超越了先前最好的模型,该模型预测的结果和置信数据只有微小的差别。
- Francesco Cricri通过一种编码器-解码器网络模型,使用循环和前馈连接精巧的设计了一种类似于ResNet架构的视频预测网络VLN。VLN网络通过循环连接使用编码器中网络层的时间信息,并且残差设计大大减少了网络的参数,虽然VLN网络在预测精度仅为VPN网络的一半,但是网络参数大概减少了25倍,缩短了预测时间。
语义分割实验