v1v2 (latest)

Audio-Visual Scene Analysis with Self-Supervised Multisensory Features

10 April 2018

Papers citing "Audio-Visual Scene Analysis with Self-Supervised Multisensory Features"

50 / 491 papers shown

Audio-driven Talking Face Generation with Stabilized Synchronization LossEuropean Conference on Computer Vision (ECCV), 2023

408

18 Jul 2023

Learning Spatial Features from Audio-Visual Correspondence in Egocentric VideosComputer Vision and Pattern Recognition (CVPR), 2023

359

10 Jul 2023

Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised Audio-Visual Video Parsing

Jie Fu

Junyu Gao

Changsheng Xu

248

05 Jul 2023

Visually-Guided Sound Source Separation with Audio-Visual Predictive CodingIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2023

Zengjie Song

Zhaoxiang Zhang

168

19 Jun 2023

STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes with Spatiotemporal Annotations of Sound EventsNeural Information Processing Systems (NeurIPS), 2023

Kazuki Shimada

Archontis Politis

Parthasaarathy Sudarsanam

...

267

15 Jun 2023

Video-to-Music Recommendation using Temporal Alignment of SegmentsIEEE transactions on multimedia (IEEE TMM), 2023

142

12 Jun 2023

Learning Fine-grained View-Invariant Representations from Unpaired Ego-Exo Videos via Temporal AlignmentNeural Information Processing Systems (NeurIPS), 2023

Zihui Xue

Kristen Grauman

EgoV

282

08 Jun 2023

The ObjectFolder Benchmark: Multisensory Learning with Neural and Real ObjectsComputer Vision and Pattern Recognition (CVPR), 2023

Yunzhu Li

Li Fei-Fei

Jiajun Wu

151

01 Jun 2023

Sonicverse: A Multisensory Simulation Platform for Embodied Household Agents that See and HearIEEE International Conference on Robotics and Automation (ICRA), 2023

Silvio Savarese

Li Fei-Fei

Jiajun Wu

325

01 Jun 2023

Modality-Independent Teachers Meet Weakly-Supervised Audio-Visual Event ParserNeural Information Processing Systems (NeurIPS), 2023

Yun-hsuan Lai

Yen-Chun Chen

Y. Wang

221

27 May 2023

Real-Time Idling Vehicles Detection using Combined Audio-Visual Deep Learning

166

23 May 2023

Annotation-free Audio-Visual SegmentationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

392

18 May 2023

How does Contrastive Learning Organize Images?

Yunzhe Zhang

Yao Lu

Qi Xuan

SSL

163

17 May 2023

ImageBind: One Embedding Space To Bind Them AllComputer Vision and Pattern Recognition (CVPR), 2023

Kalyan Vasudev Alwala

Armand Joulin

Ishan Misra

VLM

552

1,303

09 May 2023

Listen to Look into the Future: Audio-Visual Egocentric Gaze AnticipationEuropean Conference on Computer Vision (ECCV), 2023

Bolin Lai

Fiona Ryan

Wenqi Jia

Miao Liu

James M. Rehg

EgoV

371

06 May 2023

Cross-Stream Contrastive Learning for Self-Supervised Skeleton-Based Action RecognitionImage and Vision Computing (IVC), 2023

Sergio Valcarcel Macua

Yongqiang Tang

Zhizhong Zhang

Wensheng Zhang

243

03 May 2023

Conditional Generation of Audio from Video via Foley AnalogiesComputer Vision and Pattern Recognition (CVPR), 2023

Ziyang Chen

205

17 Apr 2023

Looking Similar, Sounding Different: Leveraging Counterfactual
Cross-Modal Pairs for Audiovisual Representation Learning

394

12 Apr 2023

Self-Supervised Multimodal Learning: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Yongshuo Zong

Oisin Mac Aodha

Timothy M. Hospedales

SSL

319

31 Mar 2023

Sound to Visual Scene Generation by Audio-to-Visual Latent AlignmentComputer Vision and Pattern Recognition (CVPR), 2023

216

30 Mar 2023

Egocentric Auditory Attention Localization in ConversationsComputer Vision and Pattern Recognition (CVPR), 2023

224

28 Mar 2023

Joint fMRI Decoding and Encoding with Latent Embedding Alignment

Xuelin Qian

197

26 Mar 2023

ViPFormer: Efficient Vision-and-Pointcloud Transformer for Unsupervised Pointcloud UnderstandingIEEE International Conference on Robotics and Automation (ICRA), 2023

287

25 Mar 2023

Egocentric Audio-Visual Object LocalizationComputer Vision and Pattern Recognition (CVPR), 2023

210

23 Mar 2023

Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and BaselineComputer Vision and Pattern Recognition (CVPR), 2023

Runmin Cong

192

22 Mar 2023

Machine Learning for Brain Disorders: Transformers and Visual Transformers

167

21 Mar 2023

Transformers in Speech Processing: A Survey

448

21 Mar 2023

Sound Localization from Motion: Jointly Learning Sound Direction and Camera RotationIEEE International Conference on Computer Vision (ICCV), 2023

Ziyang Chen

Shengyi Qian

Andrew Owens

236

20 Mar 2023

A Light Weight Model for Active Speaker DetectionComputer Vision and Pattern Recognition (CVPR), 2023

209

08 Mar 2023

Audio-Visual Contrastive Learning with Temporal Self-SupervisionAAAI Conference on Artificial Intelligence (AAAI), 2023

190

15 Feb 2023

AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene SynthesisNeural Information Processing Systems (NeurIPS), 2023

364

04 Feb 2023

Neural Target Speech Extraction: An OverviewIEEE Signal Processing Magazine (IEEE Signal Process. Mag.), 2023

192

134

31 Jan 2023

Audio-Visual Segmentation with SemanticsInternational Journal of Computer Vision (IJCV), 2023

...

Lingpeng Kong

Meng Wang

Yiran Zhong

VOS

172

30 Jan 2023

Skeleton-based Action Recognition through Contrasting Two-Stream Spatial-Temporal NetworksIEEE transactions on multimedia (IEEE TMM), 2023

Chen Pang

Xuequan Lu

Lei Lyu

249

27 Jan 2023

Zorro: the masked multimodal transformer

...

229

23 Jan 2023

Novel-View Acoustic SynthesisComputer Vision and Pattern Recognition (CVPR), 2023

Natalia Neverova

Andrea Vedaldi

213

20 Jan 2023

LoCoNet: Long-Short Context Network for Active Speaker DetectionComputer Vision and Pattern Recognition (CVPR), 2023

Xizi Wang

Feng Cheng

Gedas Bertasius

David J. Crandall

236

19 Jan 2023

EXIF as Language: Learning Cross-Modal Associations Between Images and Camera MetadataComputer Vision and Pattern Recognition (CVPR), 2023

346

11 Jan 2023

Self-Supervised Video Forensics by Audio-Visual Anomaly DetectionComputer Vision and Pattern Recognition (CVPR), 2023

Chao Feng

Ziyang Chen

Andrew Owens

272

112

04 Jan 2023

MAViL: Masked Audio-Video LearnersNeural Information Processing Systems (NeurIPS), 2022

Po-Yao (Bernie) Huang

Christoph Feichtenhofer

322

15 Dec 2022

Vision Transformers are Parameter-Efficient Audio-Visual LearnersComputer Vision and Pattern Recognition (CVPR), 2022

Yan-Bo Lin

Yi-Lin Sung

Jie Lei

Joey Tianyi Zhou

Gedas Bertasius

320

108

15 Dec 2022

CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled VideosInternational Conference on Learning Representations (ICLR), 2022

Taylor Berg-Kirkpatrick

VLM CLIP

261

14 Dec 2022

Audiovisual Masked AutoencodersIEEE International Conference on Computer Vision (ICCV), 2022

Mariana-Iuliana Georgescu

309

09 Dec 2022

Motion and Context-Aware Audio-Visual Conditioned Video PredictionBritish Machine Vision Conference (BMVC), 2022

382

09 Dec 2022

See, Hear, and Feel: Smart Sensory Fusion for Robotic ManipulationConference on Robot Learning (CoRL), 2022

Li Fei-Fei

Jiajun Wu

207

07 Dec 2022

iQuery: Instruments as Queries for Audio-Visual Sound SeparationComputer Vision and Pattern Recognition (CVPR), 2022

279

07 Dec 2022

Audio-Visual Activity Guided Cross-Modal Identity Association for Active Speaker DetectionIEEE Open Journal of Signal Processing (JOSP), 2022

Rahul Sharma

Shrikanth Narayanan

210

01 Dec 2022

Mix and Localize: Localizing Sound Sources in MixturesComputer Vision and Pattern Recognition (CVPR), 2022

Xixi Hu

Ziyang Chen

Andrew Owens

213

28 Nov 2022

Touch and Go: Learning from Human-Collected Vision and TouchNeural Information Processing Systems (NeurIPS), 2022

254

22 Nov 2022

Unifying Tracking and Image-Video Object Detection

Rui Wang

Ser-Nam Lim

189

20 Nov 2022