Papers

575,626 papers

VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation

Shi-Xue Zhang, Hongfa Wang, Duojun Huang, Xin Li, Xiaobin Zhu et al.

2025-05-29Text-to-Video GenerationCaption GenerationLarge Language Model+2

Paper Code

PhysicsNeRF: Physics-Guided 3D Reconstruction from Sparse Views

Mohamed Rayan Barhdadi, Hasan Kurban, Hussein Alnuweiri

2025-05-293D Reconstruction

Paper Code

TimePoint: Accelerated Time Series Alignment via Self-Supervised Keypoint and Descriptor Learning

Ron Shapira Weber, Shahar Ben Ishay, Andrey Lavrinenko, Shahaf E. Finder, Oren Freifeld et al.

2025-05-29Time Series AlignmentKeypoint DetectionTime Series+1

Paper Code

A Divide-and-Conquer Approach for Global Orientation of Non-Watertight Scene-Level Point Clouds Using 0-1 Integer Optimization

Zhuodong Li, Fei Hou, Wencheng Wang, Xuequan Lu, Ying He et al.

2025-05-29Surface Reconstruction

Paper Code

Revisiting Reweighted Risk for Calibration: AURC, Focal Loss, and Inverse Focal Loss

Han Zhou, Sebastian G. Gruber, Teodora Popordanoska, Matthew B. Blaschko

2025-05-29

Paper

LAFR: Efficient Diffusion-based Blind Face Restoration via Latent Codebook Alignment Adapter

Runyi Li, Bin Chen, Jian Zhang, Radu Timofte

2025-05-29DenoisingImage ReconstructionBlind Face Restoration+1

Paper

A Reverse Causal Framework to Mitigate Spurious Correlations for Debiasing Scene Graph Generation

Shuzhou Sun, Li Liu, Tianpeng Liu, Shuaifeng Zhi, Ming-Ming Cheng et al.

2025-05-29Scene Graph GenerationGraph Generation

Paper

CryoCCD: Conditional Cycle-consistent Diffusion with Biophysical Modeling for Cryo-EM Synthesis

Runmin Jiang, Genpei Zhang, Yuntian Yang, Siqi Wu, Yuheng Zhang et al.

2025-05-29Synthetic Data GenerationContrastive Learning

Paper

VITON-DRR: Details Retention Virtual Try-on via Non-rigid Registration

Ben Li, Minqi Li, Jie Ren, Kaibing Zhang

2025-05-29Virtual Try-onSemantic SegmentationImage Generation

Paper Code

Adaptive Spatial Augmentation for Semi-supervised Semantic Segmentation

Lingyan Ran, YaLi Li, Tao Zhuo, Shizhou Zhang, Yanning Zhang et al.

2025-05-29Semi-Supervised Semantic SegmentationData AugmentationSemantic Segmentation

Paper

UrbanCraft: Urban View Extrapolation via Hierarchical Sem-Geometric Priors

Tianhang Wang, Fan Lu, Sanqing Qu, Guo Yu, Shihang Du et al.

2025-05-29Neural Rendering

Paper

Video Editing for Audio-Visual Dubbing

Binyamin Manela, Sharon Gannot, Ethan Fetyaya

2025-05-29Video Editing

Paper Code

Bridging Geometric and Semantic Foundation Models for Generalized Monocular Depth Estimation

Sanggyun Ma, Wonjoon Choi, Jihun Park, Jaeyeul Kim, Seunghun Lee et al.

2025-05-29Depth EstimationMonocular Depth Estimation

Paper

Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings

Xingguang Wei, Haomin Wang, Shenglong Ye, Ruifeng Luo, Yanting Zhang et al.

2025-05-29graph construction

Paper

Robust and Annotation-Free Wound Segmentation on Noisy Real-World Pressure Ulcer Images: Towards Automated DESIGN-R\textsuperscript{\textregistered} Assessment

Yun-Cheng Tsai

2025-05-29Segmentation

Paper

VModA: An Effective Framework for Adaptive NSFW Image Moderation

Han Bao, Qinying Wang, Zhi Chen, Qingming Li, Xuhong Zhang et al.

2025-05-29

Paper

UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning

Weijia Mao, Zhenheng Yang, Mike Zheng Shou

2025-05-29

Paper Code

PAN-Crafter: Learning Modality-Consistent Alignment for PAN-Sharpening

Jeonghyeok Do, Sungpyo Kim, Geunhyuk Youk, Jaehyup Lee, Munchurl Kim et al.

2025-05-29

Paper

MCFNet: A Multimodal Collaborative Fusion Network for Fine-Grained Semantic Classification

Yang Qiao, Xiaoyu Zhong, Xiaofeng Gu, Zhiguo Yu

2025-05-29Image ClassificationClassification

Paper

VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?

Yuanxin Liu, Kun Ouyang, HaoNing Wu, Yi Liu, Lin Sui et al.

2025-05-29Video Understanding

Paper Code

PreviousPage 450 of 28782Next