Elevating Flow-Guided Video Inpainting with Reference Generation

Suhwan Cho, Seoung Wug Oh, Sangyoun Lee, Joon-Young Lee

2024-12-12Video Inpainting 2k

Abstract

Video inpainting (VI) is a challenging task that requires effective propagation of observable content across frames while simultaneously generating new content not present in the original video. In this study, we propose a robust and practical VI framework that leverages a large generative model for reference generation in combination with an advanced pixel propagation algorithm. Powered by a strong generative model, our method not only significantly enhances frame-level quality for object removal but also synthesizes new content in the missing areas based on user-provided text prompts. For pixel propagation, we introduce a one-shot pixel pulling method that effectively avoids error accumulation from repeated sampling while maintaining sub-pixel precision. To evaluate various VI methods in realistic scenarios, we also propose a high-quality VI benchmark, HQVI, comprising carefully generated videos using alpha matte composition. On public benchmarks and the HQVI dataset, our method demonstrates significantly higher visual quality and metric scores compared to existing solutions. Furthermore, it can process high-resolution videos exceeding 2K resolution with ease, underscoring its superiority for real-world applications.

Results

Task	Dataset	Metric	Value	Model
3D	HQVI (240p)	LPIPS	0.0335	RGVI
3D	HQVI (240p)	PSNR	30.66	RGVI
3D	HQVI (240p)	SSIM	0.9527	RGVI
3D	HQVI (240p)	VFID	0.1825	RGVI
3D	HQVI (240p)	LPIPS	0.039	RGVI w/o Ref.
3D	HQVI (240p)	PSNR	31.6	RGVI w/o Ref.
3D	HQVI (240p)	SSIM	0.9559	RGVI w/o Ref.
3D	HQVI (240p)	VFID	0.1868	RGVI w/o Ref.
3D	HQVI (2K)	LPIPS	0.0357	RGVI
3D	HQVI (2K)	PSNR	30.1	RGVI
3D	HQVI (2K)	SSIM	0.9489	RGVI
3D	HQVI (2K)	VFID	0.0058	RGVI
3D	HQVI (2K)	LPIPS	0.0403	RGVI w/o Ref.
3D	HQVI (2K)	PSNR	29.81	RGVI w/o Ref.
3D	HQVI (2K)	SSIM	0.9501	RGVI w/o Ref.
3D	HQVI (2K)	VFID	0.0101	RGVI w/o Ref.
3D	HQVI (480p)	LPIPS	0.0342	RGVI
3D	HQVI (480p)	PSNR	30.9	RGVI
3D	HQVI (480p)	SSIM	0.9513	RGVI
3D	HQVI (480p)	VFID	0.0311	RGVI
3D	HQVI (480p)	LPIPS	0.0403	RGVI w/o Ref.
3D	HQVI (480p)	PSNR	31.19	RGVI w/o Ref.
3D	HQVI (480p)	SSIM	0.9534	RGVI w/o Ref.
3D	HQVI (480p)	VFID	0.0404	RGVI w/o Ref.
Video Inpainting	HQVI (240p)	LPIPS	0.0335	RGVI
Video Inpainting	HQVI (240p)	PSNR	30.66	RGVI
Video Inpainting	HQVI (240p)	SSIM	0.9527	RGVI
Video Inpainting	HQVI (240p)	VFID	0.1825	RGVI
Video Inpainting	HQVI (240p)	LPIPS	0.039	RGVI w/o Ref.
Video Inpainting	HQVI (240p)	PSNR	31.6	RGVI w/o Ref.
Video Inpainting	HQVI (240p)	SSIM	0.9559	RGVI w/o Ref.
Video Inpainting	HQVI (240p)	VFID	0.1868	RGVI w/o Ref.
Video Inpainting	HQVI (2K)	LPIPS	0.0357	RGVI
Video Inpainting	HQVI (2K)	PSNR	30.1	RGVI
Video Inpainting	HQVI (2K)	SSIM	0.9489	RGVI
Video Inpainting	HQVI (2K)	VFID	0.0058	RGVI
Video Inpainting	HQVI (2K)	LPIPS	0.0403	RGVI w/o Ref.
Video Inpainting	HQVI (2K)	PSNR	29.81	RGVI w/o Ref.
Video Inpainting	HQVI (2K)	SSIM	0.9501	RGVI w/o Ref.
Video Inpainting	HQVI (2K)	VFID	0.0101	RGVI w/o Ref.
Video Inpainting	HQVI (480p)	LPIPS	0.0342	RGVI
Video Inpainting	HQVI (480p)	PSNR	30.9	RGVI
Video Inpainting	HQVI (480p)	SSIM	0.9513	RGVI
Video Inpainting	HQVI (480p)	VFID	0.0311	RGVI
Video Inpainting	HQVI (480p)	LPIPS	0.0403	RGVI w/o Ref.
Video Inpainting	HQVI (480p)	PSNR	31.19	RGVI w/o Ref.
Video Inpainting	HQVI (480p)	SSIM	0.9534	RGVI w/o Ref.
Video Inpainting	HQVI (480p)	VFID	0.0404	RGVI w/o Ref.

Elevating Flow-Guided Video Inpainting with Reference Generation

Abstract

Results

Related Papers

Elevating Flow-Guided Video Inpainting with Reference Generation

Abstract

Results

Related Papers