Papers citing 'Improving Audio-Visual Segmentation with Bidirectional Generation'

Title
Complementary and Contrastive Learning for Audio-Visual SegmentationIEEE transactions on multimedia (TMM), 2025 Sitong Gong Yunzhi Zhuge Lu Zhang Pingping Zhang Huchuan Lu VOS 230 3 0 11 Oct 2025
Frequency-Domain Decomposition and Recomposition for Robust Audio-Visual Segmentation Yunzhe Shen Kai Peng Leiye Liu Wei Ji Jingjing Li Miao Zhang Yongri Piao Huchuan Lu VOS 201 0 0 23 Sep 2025
Multimodal Referring Segmentation: A Survey Henghui Ding Song Tang Shuting He Chang-rui Liu Zuxuan Wu Yu-Gang Jiang 378 10 0 01 Aug 2025
Implicit Counterfactual Learning for Audio-Visual Segmentation Mingfeng Zha Tianyu Li G. Wang Peng Wang Yangyang Wu Yang Yang Heng Tao Shen VOS CML 162 1 0 28 Jul 2025
AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting Yuyuan Liu Yuanhong Chen Chong Wang Junlin Han Junde Wu Can Peng Jingkun Chen Yu Tian Gustavo Carneiro VLM 287 0 0 01 Jun 2025
HAVT-IVD: Heterogeneity-Aware Cross-Modal Network for Audio-Visual Surveillance: Idling Vehicles Detection With Multichannel Audio and Multiscale Visual Cues Xiwen Li Ross T. Whitaker Tolga Tasdizen 250 0 0 15 Apr 2025
Dynamic Derivation and Elimination: Audio Visual Segmentation with Enhanced Audio SemanticsComputer Vision and Pattern Recognition (CVPR), 2025 Chen Liu Liying Yang Peike Li Dadong Wang Lincheng Li Xin Yu VOS 309 3 0 17 Mar 2025
Robust Audio-Visual Segmentation via Audio-Guided Visual Convergent AlignmentComputer Vision and Pattern Recognition (CVPR), 2025 Chen Liu Peike Li Liying Yang Dadong Wang Lincheng Li Xin Yu VOS 211 2 0 17 Mar 2025
AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual SegmentationIEEE transactions on multimedia (TMM), 2025 Sitong Gong Yunzhi Zhuge Lu Zhang Yifan Wang Pingping Zhang Lijun Wang Huchuan Lu Mamba VOS 117 13 0 14 Jan 2025
Towards Open-Vocabulary Audio-Visual Event LocalizationComputer Vision and Pattern Recognition (CVPR), 2024 Jinxing Zhou Dan Guo Ruohao Guo Yuxin Mao Jingjing Hu Yiran Zhong Xiaojun Chang Ming Wang VLM 476 21 0 18 Nov 2024
3D Audio-Visual Segmentation Artem Sokolov Swapnil Bhosale Xiatian Zhu VOS 254 3 0 04 Nov 2024
AVESFormer: Efficient Transformer Design for Real-Time Audio-Visual Segmentation Zili Wang Qi Yang Linsu Shi Jiazhong Yu M. Tanveer Fei Li Shiming Xiang VOS 214 4 0 03 Aug 2024
Unveiling and Mitigating Bias in Audio Visual Segmentation Peiwen Sun Honggang Zhang Di Hu 232 11 0 23 Jul 2024
Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation Juncheng Ma Peiwen Sun Yaoting Wang Di Hu VOS 321 21 0 16 Jul 2024
Can Textual Semantics Mitigate Sounding Object Segmentation Preference? Yaoting Wang Peiwen Sun Yuanchao Li Honggang Zhang Di Hu 304 12 0 15 Jul 2024
CPM: Class-conditional Prompting Machine for Audio-visual Segmentation Yuanhong Chen Chong Wang Yuyuan Liu Hu Wang Gustavo Carneiro 315 10 0 07 Jul 2024
Progressive Confident Masking Attention Network for Audio-Visual Segmentation Yuxuan Wang Feng Dong Jinchao Zhu Shuyue Zhu VOS 362 1 0 04 Jun 2024
TAVGBench: Benchmarking Text to Audible-Video Generation Yuxin Mao Xuyang Shen Jing Zhang Zhen Qin Jinxing Zhou Mochu Xiang Yiran Zhong Yuchao Dai 175 27 0 22 Apr 2024
Unsupervised Audio-Visual Segmentation with Modality Alignment Swapnil Bhosale Haosen Yang Helen Treharne Jiangkang Deng Xiatian Zhu VOS 184 8 0 21 Mar 2024
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception Jun-Yan He Yifan Wang Lijun Wang Huchuan Lu Jun-Yan He Jinpeng Lan Bin Luo Xuansong Xie MLLM VLM 204 35 0 05 Mar 2024
Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues Tianxiang Chen Zhentao Tan Tao Gong Qi Chu Yue-bo Wu Bin Liu Le Lu Jieping Ye Nenghai Yu VOS 210 9 0 04 Feb 2024
Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models Zhen Qin Weigao Sun Dong Li Xuyang Shen Weixuan Sun Yiran Zhong 276 42 0 09 Jan 2024
Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation Qi Yang Xing Nie Tong Li Pengfei Gao Ying Guo Cheng Zhen Pengfei Yan Shiming Xiang VOS 190 24 0 11 Dec 2023
Cross-modal Cognitive Consensus guided Audio-Visual SegmentationIEEE transactions on multimedia (IEEE TMM), 2023 Zhaofeng Shi Qingbo Wu Fanman Meng Linfeng Xu Hongliang Li VOS 366 8 0 10 Oct 2023
QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic DecompositionComputer Vision and Pattern Recognition (CVPR), 2023 Xiang Li Jinglu Wang Xiaohao Xu Xiulian Peng Rita Singh Yan Lu Bhiksha Raj VOS 344 17 0 29 Sep 2023
Leveraging Foundation models for Unsupervised Audio-Visual Segmentation Swapnil Bhosale Haosen Yang Helen Treharne Xiatian Zhu VOS 209 6 0 13 Sep 2023
Contrastive Conditional Latent Diffusion for Audio-visual SegmentationIEEE Transactions on Image Processing (IEEE TIP), 2023 Yuxin Mao Jing Zhang Mochu Xiang Yun-Qiu Lv Dong Li Yiran Zhong Yuchao Dai DiffM 382 41 0 31 Jul 2023
Exploring Transformer ExtrapolationAAAI Conference on Artificial Intelligence (AAAI), 2023 Zhen Qin Yiran Zhong Huiyuan Deng 135 12 0 19 Jul 2023
Unraveling Instance Associations: A Closer Look for Audio-Visual SegmentationComputer Vision and Pattern Recognition (CVPR), 2023 Yuanhong Chen Yuyuan Liu Hu Wang Fengbei Liu Chong Wang Helen Frazer G. Carneiro VOS 313 34 0 06 Apr 2023