Learning Joint Spatial-Temporal Transformations for Video Inpainting

Yanhong Zeng, Jianlong Fu, Hongyang Chao

2020-07-20ECCV 2020 8Seeing Beyond the Visible Video Inpainting

Abstract

High-quality video inpainting that completes missing regions in video frames is a promising yet challenging task. State-of-the-art approaches adopt attention models to complete a frame by searching missing contents from reference frames, and further complete whole videos frame by frame. However, these approaches can suffer from inconsistent attention results along spatial and temporal dimensions, which often leads to blurriness and temporal artifacts in videos. In this paper, we propose to learn a joint Spatial-Temporal Transformer Network (STTN) for video inpainting. Specifically, we simultaneously fill missing regions in all input frames by self-attention, and propose to optimize STTN by a spatial-temporal adversarial loss. To show the superiority of the proposed model, we conduct both quantitative and qualitative evaluations by using standard stationary masks and more realistic moving object masks. Demo videos are available at https://github.com/researchmm/STTN.

Results

Task	Dataset	Metric	Value	Model
3D	DAVIS	Ewarp	0.1449	STTN
3D	DAVIS	PSNR	30.67	STTN
3D	DAVIS	SSIM	0.956	STTN
3D	DAVIS	VFID	0.149	STTN
3D	YouTube-VOS 2018	Ewarp	0.0907	STTN
3D	YouTube-VOS 2018	PSNR	32.34	STTN
3D	YouTube-VOS 2018	SSIM	0.9655	STTN
3D	YouTube-VOS 2018	VFID	0.053	STTN
3D	HQVI (240p)	LPIPS	0.0528	STTN
3D	HQVI (240p)	PSNR	29.64	STTN
3D	HQVI (240p)	SSIM	0.9339	STTN
3D	HQVI (240p)	VFID	0.2594	STTN
Video Inpainting	DAVIS	Ewarp	0.1449	STTN
Video Inpainting	DAVIS	PSNR	30.67	STTN
Video Inpainting	DAVIS	SSIM	0.956	STTN
Video Inpainting	DAVIS	VFID	0.149	STTN
Video Inpainting	YouTube-VOS 2018	Ewarp	0.0907	STTN
Video Inpainting	YouTube-VOS 2018	PSNR	32.34	STTN
Video Inpainting	YouTube-VOS 2018	SSIM	0.9655	STTN
Video Inpainting	YouTube-VOS 2018	VFID	0.053	STTN
Video Inpainting	HQVI (240p)	LPIPS	0.0528	STTN
Video Inpainting	HQVI (240p)	PSNR	29.64	STTN
Video Inpainting	HQVI (240p)	SSIM	0.9339	STTN
Video Inpainting	HQVI (240p)	VFID	0.2594	STTN
Seeing Beyond the Visible	KITTI360-EX	Average PSNR	18.73	STTN

Learning Joint Spatial-Temporal Transformations for Video Inpainting

Abstract

Results

Related Papers

Learning Joint Spatial-Temporal Transformations for Video Inpainting

Abstract

Results

Related Papers