Papers

575,626 papers

ProJo4D: Progressive Joint Optimization for Sparse-View Inverse Physics Estimation

Daniel Rho, Jun Myeong Choi, Biswadip Dey, Roni Sengupta

2025-06-05Neural RenderingNovel View SynthesisScene Understanding+1

Paper

MARBLE: Material Recomposition and Blending in CLIP-Space

Ta-Ying Cheng, Prafull Sharma, Mark Boss, Varun Jampani

2025-06-05CVPR 2025 1DenoisingAttribute

Paper

Do It Yourself: Learning Semantic Correspondence from Pseudo-Labels

Olaf Dünkel, Thomas Wimmer, Christian Theobalt, Christian Rupprecht, Adam Kortylewski et al.

2025-06-05Semantic correspondence

Paper

Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos

Weifeng Lin, Xinyu Wei, Ruichuan An, Tianhe Ren, TingWei Chen et al.

2025-06-05Semantic Segmentation

Paper Code

AliTok: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model

Pingyu Wu, Kai Zhu, Yu Liu, Longxiang Tang, Jian Yang et al.

2025-06-05arXiv 2025 6Image Generation

Paper Code

EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?

Yuqian Yuan, Ronghao Dang, Long Li, Wentong Li, Dian Jiao et al.

2025-06-05

Paper

Stable Vision Concept Transformers for Medical Diagnosis

Lijie Hu, Songning Lai, Yuan Hua, Shu Yang, Jingfeng Zhang et al.

2025-06-05Medical Diagnosis

Paper

RaySt3R: Predicting Novel Depth Maps for Zero-Shot Object Completion

Bardienus P. Duisterhof, Jan Oberst, Bowen Wen, Stan Birchfield, Deva Ramanan et al.

2025-06-05Novel View Synthesis

Paper

Video World Models with Long-term Spatial Memory

Tong Wu, Shuai Yang, Ryan Po, Yinghao Xu, Ziwei Liu et al.

2025-06-05

Paper

Can Foundation Models Generalise the Presentation Attack Detection Capabilities on ID Cards?

Juan E. Tapia, Christoph Busch

2025-06-05

Paper

LeanPO: Lean Preference Optimization for Likelihood Alignment in Video-LLMs

Xiaodong Wang, Jinfa Huang, Li Yuan, Peixi Peng

2025-06-05

Paper Code

SAM-aware Test-time Adaptation for Universal Medical Image Segmentation

Jianghao Wu, Yicheng Wu, Yutong Xie, Wenjia Bai, You Zhang et al.

2025-06-05Semantic SegmentationMedical Image SegmentationTest-time Adaptation+1

Paper

MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm

Zhang Li, Yuliang Liu, Qiang Liu, Zhiyin Ma, Ziyang Zhang et al.

2025-06-05

Paper Code

DSG-World: Learning a 3D Gaussian World Model from Dual State Videos

Wenhao Hu, Xuexiang Wen, Xi Li, Gaoang Wang

2025-06-053D Reconstruction

Paper

Towards Vision-Language-Garment Models For Web Knowledge Garment Understanding and Generation

Jan Ackermann, Kiyohiro Nakayama, Guandao Yang, Tong Wu, Gordon Wetzstein et al.

2025-06-05Zero-shot Generalization

Paper

Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning

Yue Ma, Yulong Liu, Qiyuan Zhu, Ayden Yang, Kunyu Feng et al.

2025-06-05

Paper

Grounding Beyond Detection: Enhancing Contextual Understanding in Embodied 3D Grounding

Yani Zhang, Dongming Wu, Hao Shi, Yingfei Liu, Tiancai Wang et al.

2025-06-05

Paper Code

Quantifying Cross-Modality Memorization in Vision-Language Models

Yuxin Wen, Yangsibo Huang, Tom Goldstein, Ravi Kumar, Badih Ghazi et al.

2025-06-05World KnowledgeMemorization

Paper

Vision-Based Autonomous MM-Wave Reflector Using ArUco-Driven Angle-of-Arrival Estimation

Josue Marroquin, Nan Inzali, Miles Dillon Lantz, Campbell Freeman, Amod Ashtekar et al.

2025-06-05Raspberry Pi 4

Paper

MokA: Multimodal Low-Rank Adaptation for MLLMs

Yake Wei, Yu Miao, Dongzhan Zhou, Di Hu

2025-06-05

Paper

PreviousPage 331 of 28782Next