v1v2 (latest)

Learning Audio-Visual Correlations from Variational Cross-Modal Generation

IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2021

5 February 2021

Ye Zhu

Yu Wu

Hugo Latapie

Yi Yang

Yan Yan

SSL

ArXiv (abs)PDF HTML

Papers citing "Learning Audio-Visual Correlations from Variational Cross-Modal Generation"

32 / 32 papers shown

A Survey of Recent Advances and Challenges in Deep Audio-Visual Correlation LearningACM Computing Surveys (ACM CSUR), 2024

Luis Vilaca

Yi Yu

Paula Vinan

539

24 Nov 2024

Data Augmentation with GAN increases the Performance of Arrhythmia Classification for an Unbalanced Dataset

Okan Düzyel

M. Kuntalp

320

24 Feb 2023

Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal RetrievalIEEE International Symposium on Multimedia (ISM), 2022

255

07 Nov 2022

Vision+X: A Survey on Multimodal Learning in the Light of DataIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Ye Zhu

Yuehua Wu

Andrii Zadaianchuk

Yan Yan

489

05 Oct 2022

A Comprehensive Survey on Video Saliency Detection with Auditory Information: the Audio-visual Consistency Perceptual is the Key!

Chenglizhao Chen

264

20 Jun 2022

Discrete Contrastive Diffusion for Cross-Modal Music and Image GenerationInternational Conference on Learning Representations (ICLR), 2022

Yan Yan

417

15 Jun 2022

Quantized GAN for Complex Music Generation from Dance VideosEuropean Conference on Computer Vision (ECCV), 2022

Yan Yan

279

01 Apr 2022

Recent Advances and Challenges in Deep Audio-Visual Correlation Learning

Luís Vilacca

Yi Yu

Paula Viana

340

28 Feb 2022

Saying the Unseen: Video Descriptions via Dialog AgentsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

Ye Zhu

Yu Wu

Yi Yang

Yan Yan

258

26 Jun 2021

Cross-Modal Discrete Representation LearningAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

174

10 Jun 2021

Visually Informed Binaural Audio Generation without Binaural AudiosComputer Vision and Pattern Recognition (CVPR), 2021

230

13 Apr 2021

Foley Music: Learning to Generate Music from Videos

Chuang Gan

Antonio Torralba

202

156

21 Jul 2020

Music Gesture for Visual Sound SeparationComputer Vision and Pattern Recognition (CVPR), 2020

Chuang Gan

Deng Huang

Hang Zhao

J. Tenenbaum

Antonio Torralba

315

217

20 Apr 2020

Towards Generating Ambisonics Using Audio-Visual Cue for Virtual RealityIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2019

A. Rana

C. Ozcinar

A. Smolic

204

16 Aug 2019

Self-Supervised Audio-Visual Co-Segmentation

Andrew Rouditchenko

Hang Zhao

Chuang Gan

Josh H. McDermott

Antonio Torralba

VLM SSL

173

107

18 Apr 2019

Latent Translation: Crossing Modalities by Bridging Generative Models

Yingtao Tian

Jesse Engel

DRL

210

21 Feb 2019

Dual-modality seq2seq network for audio-visual event localization

Yan-Bo Lin

Yu-Jhe Li

Y. Wang

261

156

20 Feb 2019

Latent Alignment and Variational Attention

240

118

10 Jul 2018

Cooperative Learning of Audio and Video Models from Self-Supervised SynchronizationNeural Information Processing Systems (NeurIPS), 2018

Bruno Korbar

Du Tran

Lorenzo Torresani

507

509

30 Jun 2018

Audio-Visual Scene Analysis with Self-Supervised Multisensory Features

Andrew Owens

Alexei A. Efros

SSL

787

806

10 Apr 2018

The Sound of Pixels

Hang Zhao

Chuang Gan

Andrew Rouditchenko

Carl Vondrick

Josh H. McDermott

Antonio Torralba

VLM

585

590

09 Apr 2018

Learning to Separate Object Sounds by Watching Unlabeled Video

368

297

05 Apr 2018

Cross-modal Deep Variational Hand Pose Estimation

Otmar Hilliges

293

305

30 Mar 2018

Audio-Visual Event Localization in Unconstrained Videos

Yapeng Tian

Jing Shi

Bochen Li

Zhiyao Duan

Chenliang Xu

572

565

23 Mar 2018

Learning to Localize Sound Source in Visual Scenes

Arda Senocak

Tae-Hyun Oh

Junsik Kim

Ming-Hsuan Yang

In So Kweon

SSL

382

375

10 Mar 2018

Degeneration in VAE: in the Light of Fisher Information Loss

Huangjie Zheng

Jiangchao Yao

Ya Zhang

Ivor W. Tsang

DRL

211

19 Feb 2018

461

561

18 Dec 2017

Wasserstein Auto-Encoders

831

1,138

05 Nov 2017

Look, Listen and Learn

Relja Arandjelović

Andrew Zisserman

SSL

555

1,015

23 May 2017

Deep Cross-Modal Audio-Visual Generation

386

233

26 Apr 2017

SoundNet: Learning Sound Representations from Unlabeled Video

Y. Aytar

Carl Vondrick

Antonio Torralba

SSL

436

1,097

27 Oct 2016

Auto-Encoding Variational BayesInternational Conference on Learning Representations (ICLR), 2013

Diederik P. Kingma

Max Welling

BDL

1.7K

17,040

20 Dec 2013