Modality Dropout for Improved Performance-driven Talking Faces

International Conference on Multimodal Interaction (ICMI), 2020

27 May 2020

Ahmed Hussen Abdelaziz

Papers citing "Modality Dropout for Improved Performance-driven Talking Faces"

27 / 27 papers shown

Multimodal Negative Learning

152

23 Oct 2025

Learning Contrastive Multimodal Fusion with Improved Modality Dropout for Disease Detection and PredictionInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025

Yi Gu

Kuniaki Saito

Jiaxin Ma

196

22 Sep 2025

FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs

A. K. M. Mahbubur Rahman

334

14 Sep 2025

AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars

283

21 May 2025

On-the-fly Modulation for Balanced Multimodal LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

310

15 Oct 2024

MMP: Towards Robust Multi-Modal Learning with Masked Modality Projection

460

03 Oct 2024

Dyadic Interaction Modeling for Social Behavior GenerationEuropean Conference on Computer Vision (ECCV), 2024

437

14 Mar 2024

DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture GenerationComputer Vision and Pattern Recognition (CVPR), 2024

Junming Chen

Yunfei Liu

Jianan Wang

Ailing Zeng

Yu Li

Qifeng Chen

VGen

319

09 Jan 2024

LaughTalk: Expressive 3D Talking Head Generation with LaughterIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

315

02 Nov 2023

Modality Dropout for Multimodal Device Directed Speech Detection using Verbal and Non-Verbal FeaturesIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Ahmed Hussen Abdelaziz

Ahmed H. Tewfik

248

23 Oct 2023

What Makes for Robust Multi-Modal Models in the Face of Missing Modalities?

Hang Zhao

252

10 Oct 2023

Robust Multimodal Learning with Missing Modalities via Parameter-Efficient AdaptationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Md Kaykobad Reza

Ashley Prater-Bennette

M. Salman Asif

353

06 Oct 2023

Audio-Driven 3D Facial Animation from In-the-Wild Videos

Yunfei Liu

Yu Li

186

20 Jun 2023

Language-Guided Music Recommendation for Video via Prompt AnalogiesComputer Vision and Pattern Recognition (CVPR), 2023

314

15 Jun 2023

AVFace: Towards Detailed Audio-Visual 4D Face ReconstructionComputer Vision and Pattern Recognition (CVPR), 2023

Aggelina Chatziagapi

Dimitris Samaras

3DH CVBM

270

25 Apr 2023

Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic SegmentationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Harsh Maheshwari

Yen-Cheng Liu

Z. Kira

209

21 Apr 2023

EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face AnimationIEEE International Conference on Computer Vision (ICCV), 2023

Jun He

498

188

20 Mar 2023

Pose-Controllable 3D Facial Animation Synthesis using Hierarchical Audio-Vertex Attention

222

24 Feb 2023

Beyond Triplet: Leveraging the Most Data for Multimodal Machine TranslationAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

318

20 Dec 2022

Naturalistic Head Motion Generation from SpeechIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

219

26 Oct 2022

On the role of Lip Articulation in Visual Speech PerceptionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Miguel Sarabia

258

18 Mar 2022

Learnable Irrelevant Modality Dropout for Multimodal Action Recognition on Modality-Specific Annotated VideosComputer Vision and Pattern Recognition (CVPR), 2022

413

06 Mar 2022

Learning Audio-Visual Speech Representation by Masked Multimodal Cluster PredictionInternational Conference on Learning Representations (ICLR), 2022

465

447

05 Jan 2022

FaceFormer: Speech-Driven 3D Facial Animation with Transformers

Yingruo Fan

Mohammad Kachuee

Jun Saito

Wenping Wang

Taku Komura

CVBM

893

287

10 Dec 2021

LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from Video using Pose and Lighting NormalizationComputer Vision and Pattern Recognition (CVPR), 2021

300

116

08 Jun 2021

Improved Lite Audio-Visual Speech EnhancementIEEE/ACM Transactions on Audio Speech and Language Processing (TASLP), 2020

Shang-Yi Chuang

Hsin-Min Wang

Yu Tsao

401

30 Aug 2020

Audiovisual Speech Synthesis using Tacotron2International Conference on Multimodal Interaction (ICMI), 2020

Ahmed Hussen Abdelaziz

Anushree Prasanna Kumar

263

03 Aug 2020