论文资料

Learning to Generate Long-term Future via Hierarchical Prediction 项目主页代码

论文效果

当视频外框为绿色时，为真实视频；当外框变红时，为AI生成的“假”视频。最左边是今天要介绍的方法，中间和右边用以前方法达到的效果。其中主要比较了ConvLSTM和基于光流的方法。

博客资料

Learning to Generate Long-term Future via Hierarchical Prediction解读

相关观点

这篇文章提出了分层的网络结构用于视频帧的预测。作者提到之前的一些文章的局限性在于：之前的工作的video generation均是pixel-to-pixel的过程。作者提到之前的方法在long-term预测时候，错误随着预测的时间成几何增加，原因在于在预测long-term帧的时候，会使用到之前预测的帧，这样随着时间的推移，噪声和错误会累积（作者在文中说，为了做出合理的long-term预测，模型对于pixel-to-pixel的噪声需要有很强的鲁棒性，然而噪声的增强很快会掩盖掉结构信息），作者的解决方案是即使在预测long-term帧的时候，也不会使用之前预测的帧，这样可以很好的截断误差的累积。下面我们详细介绍下这篇文章的分层网络结构(Hierarchical Prediction)。