Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video Parsing

21 July 2020

Papers citing "Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video Parsing"

50 / 136 papers shown

Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing

249

17 Sep 2025

TEn-CATG:Text-Enriched Audio-Visual Video Parsing with Multi-Scale Category-Aware Temporal Graph

303

04 Sep 2025

CLASP: Cross-modal Salient Anchor-based Semantic Propagation for Weakly-supervised Dense Audio-Visual Event Localization

228

06 Aug 2025

Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation

289

06 Aug 2025

Progressive Homeostatic and Plastic Prompt Tuning for Audio-Visual Multi-Task Incremental Learning

294

29 Jul 2025

ESG-Net: Event-Aware Semantic Guided Network for Dense Audio-Visual Event Localization

240

14 Jul 2025

MUG: Pseudo Labeling Augmented Audio-Visual Mamba Network for Audio-Visual Video Parsing

383

02 Jul 2025

PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling

326

29 May 2025

Learning to Highlight Audio by Watching MoviesComputer Vision and Pattern Recognition (CVPR), 2025

371

17 May 2025

UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video ParsingComputer Vision and Pattern Recognition (CVPR), 2025

Michael Jeffrey Jones

Moitreya Chatterjee

247

14 May 2025

Audio-visual Event Localization on Portrait Mode Short Videos

346

09 Apr 2025

AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection

460

06 Apr 2025

Aligned Better, Listen Better for Audio-Visual Large Language ModelsInternational Conference on Learning Representations (ICLR), 2025

410

02 Apr 2025

Continual Cross-Modal Generalization

315

01 Apr 2025

Enhancing Multi-modal Models with Heterogeneous MoE Adapters for Fine-tuning

329

26 Mar 2025

Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic ThresholdsComputer Vision and Pattern Recognition (CVPR), 2025

461

17 Mar 2025

Crab: A Unified Audio-Visual Scene Understanding Model with Explicit CooperationComputer Vision and Pattern Recognition (CVPR), 2025

302

17 Mar 2025

AudioX: A Unified Framework for Anything-to-Audio Generation

Yike Guo

585

13 Mar 2025

MACS: Multi-source Audio-to-image Generation with Contextual Significance and Semantic Alignment

540

13 Mar 2025

Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model

Ali Vosoughi

Dimitra Emmanouilidou

H. Gamper

601

12 Mar 2025

Learning Musical Representations for Music Performance Question AnsweringConference on Empirical Methods in Natural Language Processing (EMNLP), 2025

366

10 Feb 2025

Audio-Language Datasets of Scenes and Events: A SurveyIEEE Access (IEEE Access), 2024

630

10 Jan 2025

Reading to Listen at the Cocktail Party: Multi-Modal Speech SeparationComputer Vision and Pattern Recognition (CVPR), 2022

Akam Rahimi

Triantafyllos Afouras

Andrew Zisserman

424

02 Jan 2025

Advanced Knowledge Transfer: Refined Feature Distillation for Zero-Shot Quantization in Edge ComputingACM Symposium on Applied Computing (SAC), 2024

390

26 Dec 2024

Multimodal Class-aware Semantic Enhancement Network for Audio-Visual Video ParsingAAAI Conference on Artificial Intelligence (AAAI), 2024

376

15 Dec 2024

Towards Open-Vocabulary Audio-Visual Event LocalizationComputer Vision and Pattern Recognition (CVPR), 2024

622

18 Nov 2024

SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question AnsweringConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

411

07 Nov 2024

Aligning Audio-Visual Joint Representations with an Agentic WorkflowNeural Information Processing Systems (NeurIPS), 2024

Shentong Mo

Yibing Song

308

30 Oct 2024

Multi-scale Multi-instance Visual Sound Localization and Segmentation

Shentong Mo

Haofan Wang

316

31 Aug 2024

VyAnG-Net: A Novel Multi-Modal Sarcasm Recognition Model by Uncovering Visual, Acoustic and Glossary FeaturesIntelligent Data Analysis (IDA), 2024

Ananya Pandey

Dinesh Kumar Vishwakarma

284

05 Aug 2024

Boosting Audio Visual Question Answering via Key Semantic-Aware Cues

Guangyao Li

Henghui Du

Di Hu

268

30 Jul 2024

Audio-visual Generalized Zero-shot Learning the Easy Way

Shentong Mo

Pedro Morgado

291

18 Jul 2024

Label-anticipated Event Disentanglement for Audio-Visual Video Parsing

Dan Guo

286

11 Jul 2024

Semantic Grouping Network for Audio Source Separation

Shentong Mo

Yapeng Tian

357

04 Jul 2024

SAVE: Segment Audio-Visual Easy way using Segment Anything Model

Khanh-Binh Nguyen

Chae Jung Park

VLM VOS

439

02 Jul 2024

Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time

Dinesh Manocha

452

01 Jul 2024

Extending Segment Anything Model into Auditory and Temporal Dimensions for Audio-Visual SegmentationInternational Conference on Information Photonics (ICIP), 2024

278

10 Jun 2024

MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers

214

07 Jun 2024

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

708

06 Jun 2024

SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound

417

06 Jun 2024

Advancing Weakly-Supervised Audio-Visual Video Parsing via Segment-wise Pseudo Labeling

Meng Wang

280

03 Jun 2024

CoLeaF: A Contrastive-Collaborative Learning Framework for Weakly Supervised Audio-Visual Video ParsingEuropean Conference on Computer Vision (ECCV), 2024

529

17 May 2024

CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering

Yuanyuan Jiang

Jianqin Yin

362

13 May 2024

TIM: A Time Interval Machine for Audio-Visual Action Recognition

Dima Damen

338

08 Apr 2024

UniAV: Unified Audio-Visual Perception for Multi-Task Video Event LocalizationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

372

04 Apr 2024

Siamese Vision Transformers are Scalable Audio-visual Learners

Yan-Bo Lin

Gedas Bertasius

361

28 Mar 2024

Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal UnderstandingAAAI Conference on Artificial Intelligence (AAAI), 2024

471

24 Mar 2024

Hear Me, See Me, Understand Me: Audio-Visual Autism Behavior RecognitionIEEE transactions on multimedia (IEEE TMM), 2024

...

325

22 Mar 2024

Audio-Visual Segmentation via Unlabeled Frame Exploitation

390

17 Mar 2024

Answering Diverse Questions via Text Attached with Key Audio-Visual Clues

Qilang Ye

Zitong Yu

Xin Liu

275

11 Mar 2024