Papers

575,626 papers

Learning to Upsample and Upmix Audio in the Latent Domain

Dimitrios Bralios, Paris Smaragdis, Jonah Casebeer

2025-05-31Bandwidth Extension

Paper

Chain-of-Thought Training for Open E2E Spoken Dialogue Systems

Siddhant Arora, Jinchuan Tian, Hayato Futami, Jee-weon Jung, Jiatong Shi et al.

2025-05-31Speech Recognitionspeech-recognitionSpoken Dialogue Systems+5

Paper

Quantifying and Reducing Speaker Heterogeneity within the Common Voice Corpus for Phonetic Analysis

Miao Zhang, Aref Farhadipour, Annie Baker, Jiachen Ma, Bogdan Pricop et al.

2025-05-31

Paper

IMPACT: Iterative Mask-based Parallel Decoding for Text-to-Audio Generation with Diffusion Modeling

Kuan-Po Huang, Shu-wen Yang, Huy Phan, Bo-Ru Lu, Byeonggeun Kim et al.

2025-05-31Audio Generation

Paper

Length Aware Speech Translation for Video Dubbing

Harveen Singh Chadha, Aswin Shanmugam Subramanian, Vikas Joshi, Shubham Bansal, Jian Xue et al.

2025-05-31Translation

Paper

Position: Olfaction Standardization is Essential for the Advancement of Embodied Artificial Intelligence

Kordel K. France, Rohith Peddi, Nik Dennler, Ovidiu Daescu

2025-05-31NavigateEthics

Paper

LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks

Yi Yang, Jiaxuan Sun, Siqi Kou, Yihan Wang, Zhijie Deng et al.

2025-05-31Task PlanningVision-Language-Action

Paper

Diffusion Graph Neural Networks for Robustness in Olfaction Sensors and Datasets

Kordel K. France, Ovidiu Daescu

2025-05-31

Paper

Using Diffusion Ensembles to Estimate Uncertainty for End-to-End Autonomous Driving

Florian Wintel, Sigmund H. Høeg, Gabriel Kiss, Frank Lindseth

2025-05-31Trajectory PlanningCARLA longest6Autonomous Driving

Paper

Constrained Stein Variational Gradient Descent for Robot Perception, Planning, and Identification

Griffin Tabor, Tucker Hermans

2025-05-31Variational Inference

Paper

Evaluating Robot Policies in a World Model

Julian Quevedo, Percy Liang, Sherry Yang

2025-05-31Video Generation

Paper

Accelerating Diffusion LLMs via Adaptive Parallel Decoding

Daniel Israel, Guy Van Den Broeck, Aditya Grover

2025-05-31

Paper

SEED: A Benchmark Dataset for Sequential Facial Attribute Editing with Diffusion Models

Yule Zhu, Ping Liu, Zhedong Zheng, Wei Liu

2025-05-31Attribute

Paper Code

Scene Detection Policies and Keyframe Extraction Strategies for Large-Scale Video Analysis

Vasilii Korolkov

2025-05-31Scene SegmentationSegmentationSemantic Retrieval+1

Paper

An Incremental Framework for Topological Dialogue Semantics: Efficient Reasoning in Discrete Spaces

Andreu Ballus Santacana

2025-05-31Topological Data Analysis

Paper

Thinking Out of the Box: Hybrid SAT Solving by Unconstrained Continuous Optimization

Zhiwei Zhang, Samy Wu Fung, Anastasios Kyrillidis, Stanley Osher, Moshe Y. Vardi et al.

2025-05-31Combinatorial Optimization

Paper

Accurate Estimation of Mutual Information in High Dimensional Data

Eslam Abdelaleem, K. Michael Martini, Ilya Nemenman

2025-05-31

Paper

On the Use of Björck Sequences in LEO-based PNT Systems

Harish K. Dureppagari, Chiranjib Saha, R. Michael Buehrer, Harpreet S. Dhillon

2025-05-31

Paper

Adaptive-VP: A Framework for LLM-Based Virtual Patients that Adapts to Trainees' Dialogue to Facilitate Nurse Communication Training

Keyeun Lee, Seolhee Lee, Esther Hehsun Kim, Yena Ko, Jinsu Eun et al.

2025-05-31Dialogue Generation

Paper Code

Towards Temporally Explainable Dysarthric Speech Clarity Assessment

Seohyun Park, Chitralekha Gupta, Michelle Kah Yian Kwan, Xinhui Fung, Alexander Wenjun Yip et al.

2025-05-31Speech RecognitionAutomatic Speech RecognitionAutomatic Speech Recognition (ASR)+1

Paper Code

PreviousPage 401 of 28782Next