Papers

575,626 papers

Phonikud: Hebrew Grapheme-to-Phoneme Conversion for Real-Time Text-to-Speech

Yakov Kolani, Maxim Melichov, Cobi Calev, Morris Alper

2025-06-14Text to Speechtext-to-speech

Paper

GSDNet: Revisiting Incomplete Multimodal-Diffusion from Graph Spectrum Perspective for Conversation Emotion Recognition

Yuntao Shou, Jun Yao, Tao Meng, Wei Ai, Cen Chen et al.

2025-06-14Modality completionMultimodal Emotion RecognitionEmotion Recognition

Paper

Exploring Audio Cues for Enhanced Test-Time Video Model Adaptation

Runhao Zeng, Qi Deng, Ronghao Zhang, Shuaicheng Niu, Jian Chen et al.

2025-06-14Video ClassificationTest-time Adaptation

Paper

Mitigating Non-Target Speaker Bias in Guided Speaker Embedding

Shota Horiguchi, Takanori Ashihara, Marc Delcroix, Atsushi Ando, Naohiro Tawara et al.

2025-06-14Speaker Verification

Paper

StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling

Hui Wang, Yifan Yang, Shujie Liu, Jinyu Li, Lingwei Meng et al.

2025-06-14Text to Speechtext-to-speech

Paper

Towards Neural Audio Codec Source Parsing

Orchid Chetia Phukan, Girish, Mohd Mujtaba Akhtar, Arun Balaji Buduru, Rajesh Sharma et al.

2025-06-14

Paper

ANIRA: An Architecture for Neural Network Inference in Real-Time Audio Applications

Valentin Ackva, Fares Schulz

2025-06-14Benchmarking

Paper Code

Perspective on Utilizing Foundation Models for Laboratory Automation in Materials Research

Kan Hatakeyama-Sato, Toshihiko Nishida, Kenta Kitamura, Yoshitaka Ushiku, Koichi Takahashi et al.

2025-06-14

Paper

AntiGrounding: Lifting Robotic Actions into VLM Representation Space for Decision Making

Wenbo Li, Shiyi Wang, Yiteng Chen, Huiping Zhuang, Qingyao Wu et al.

2025-06-14Question AnsweringDecision MakingVisual Question Answering

Paper

Deep Fusion of Ultra-Low-Resolution Thermal Camera and Gyroscope Data for Lighting-Robust and Compute-Efficient Rotational Odometry

Farida Mohsen, Ali Safa

2025-06-14Sensor Fusion

Paper

Constrained Diffusers for Safe Planning and Control

Jichen Zhang, Liqun Zhao, Antonis Papachristodoulou, Jack Umenberger

2025-06-14

Paper

Learning Best Paths in Quantum Networks

Xuchuang Wang, Maoli Liu, Xutong Liu, Zhuohua Li, Mohammad Hajiesmaili et al.

2025-06-14Benchmarking

Paper

Deep Fictitious Play-Based Potential Differential Games for Learning Human-Like Interaction at Unsignalized Intersections

Kehua Chen, Shucheng Zhang, Yinhai Wang

2025-06-14

Paper

IndoorWorld: Integrating Physical Task Solving and Social Simulation in A Heterogeneous Multi-Agent Environment

Dekun Wu, Frederik Brudy, Bang Liu, Yi Wang

2025-06-14AI Agent

Paper

A Comprehensive Survey of Deep Research: Systems, Methodologies, and Applications

Renjun Xu, Jingwen Peng

2025-06-14Task PlanningInformation Retrieval

Paper Code

SheetMind: An End-to-End LLM-Powered Multi-Agent Framework for Spreadsheet Automation

Ruiyan Zhu, Xi Cheng, Ke Liu, Brian Zhu, Daniel Jin et al.

2025-06-14

Paper

SplashNet: Split-and-Share Encoders for Accurate and Efficient Typing with Surface Electromyography

Nima Hadidi, Jason Chan, Ebrahim Feghhi, Jonathan Kao

2025-06-14

Paper Code

Levels of Autonomy for AI Agents

K. J. Kevin Feng, David W. McDonald, Amy X. Zhang

2025-06-14

Paper

Improving Factuality for Dialogue Response Generation via Graph-Based Knowledge Augmentation

Xiangyan Chen, Yujian Gan, Matthew Purver

2025-06-14Response Generation

Paper

Inference-Time Gaze Refinement for Micro-Expression Recognition: Enhancing Event-Based Eye Tracking with Motion-Aware Post-Processing

Nuwan Bandara, Thivya Kandappu, Archan Misra

2025-06-14Optical Flow EstimationMicro Expression RecognitionMicro-Expression Recognition+1

Paper Code

PreviousPage 200 of 28782Next