Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation

25 July 2023

Papers citing "Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation"

20 / 20 papers shown

Title
Squeeze Out Tokens from Sample for Finer-Grained Data Governance Weixiong Lin Chen Ju Haicheng Wang Shengchao Hu Shuai Xiao ... Yuheng Jiao Mingshuai Yao Jinsong Lan Qingwen Liu Ying Chen 48 0 0 18 Mar 2025
Robust Audio-Visual Segmentation via Audio-Guided Visual Convergent Alignment Chen Liu Peike Li Liying Yang Dadong Wang Lincheng Li Xin Yu VOS 60 0 0 17 Mar 2025
Dynamic Derivation and Elimination: Audio Visual Segmentation with Enhanced Audio Semantics Chen Liu Liying Yang Peike Li Dadong Wang Lincheng Li Xin Yu VOS 94 0 0 17 Mar 2025
FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance Haicheng Wang Zhemeng Yu Gabriele Spadaro Chen Ju Victor Quétu Enzo Tartaglione Enzo Tartaglione VLM 79 3 0 05 Jan 2025
Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training Haicheng Wang Chen Ju Weixiong Lin Shuai Xiao Mengting Chen ... Mingshuai Yao Jinsong Lan Ying Chen Qingwen Liu Yanfeng Wang VLM CLIP 70 4 0 30 Nov 2024
AVESFormer: Efficient Transformer Design for Real-Time Audio-Visual Segmentation Zili Wang Qi Yang Linsu Shi Jiazhong Yu M. Tanveer Fei Li Shiming Xiang VOS 14 1 0 03 Aug 2024
Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation Juncheng Ma Peiwen Sun Yaoting Wang Di Hu VOS 41 7 0 16 Jul 2024
Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language Large Models Chen Ju Haicheng Wang Haozhe Cheng Xu Chen Zhonghua Zhai Weilin Huang Jinsong Lan Shuai Xiao Bo Zheng VLM 38 5 0 16 Jul 2024
Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes Yaoting Wang Peiwen Sun Dongzhan Zhou Guangyao Li Honggang Zhang Di Hu VOS 38 5 0 15 Jul 2024
Can Textual Semantics Mitigate Sounding Object Segmentation Preference? Yaoting Wang Peiwen Sun Yuanchao Li Honggang Zhang Di Hu 38 5 0 15 Jul 2024
CPM: Class-conditional Prompting Machine for Audio-visual Segmentation Yuanhong Chen Chong Wang Yuyuan Liu Hu Wang Gustavo Carneiro 37 2 0 07 Jul 2024
SAVE: Segment Audio-Visual Easy way using Segment Anything Model Khanh-Binh Nguyen Chae Jung Park VLM VOS 24 1 0 02 Jul 2024
DENOISER: Rethinking the Robustness for Open-Vocabulary Action Recognition Haozhe Cheng Chen Ju Haicheng Wang Jinxiang Liu Mengting Chen Qiang Hu Xiaoyun Zhang Yanfeng Wang DiffM VLM 27 5 0 23 Apr 2024
Audio-Visual Segmentation via Unlabeled Frame Exploitation Jinxiang Liu Yikun Liu Fei Zhang Chen Ju Ya-Qin Zhang Yanfeng Wang 34 9 0 17 Mar 2024
Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues Tianxiang Chen Zhentao Tan Tao Gong Qi Chu Yue-bo Wu Bin Liu Le Lu Jieping Ye Nenghai Yu VOS 32 3 0 04 Feb 2024
Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language Models Chen Ju Haicheng Wang Zeqian Li Xu Chen Zhonghua Zhai Weilin Huang Shuai Xiao VLM 68 7 0 12 Dec 2023
Prompting Segmentation with Sound Is Generalizable Audio-Visual Source Localizer Yaoting Wang Weisong Liu Guangyao Li Jian Ding Di Hu Xi Li VLM 13 18 0 13 Sep 2023
Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation Yuanhong Chen Yuyuan Liu Hu Wang Fengbei Liu Chong Wang Helen Frazer G. Carneiro VOS 10 15 0 06 Apr 2023
Conditional Convolutions for Instance Segmentation Zhi Tian Chunhua Shen Hao Chen ISeg 167 596 0 12 Mar 2020
Feature Pyramid Networks for Object Detection Tsung-Yi Lin Piotr Dollár Ross B. Girshick Kaiming He Bharath Hariharan Serge J. Belongie ObjD 166 21,643 0 09 Dec 2016