Can Textual Semantics Mitigate Sounding Object Segmentation Preference?

15 July 2024

Papers citing "Can Textual Semantics Mitigate Sounding Object Segmentation Preference?"

7 / 7 papers shown

Title
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey Y. Wang Shengqiong Wu Y. Zhang William Yang Wang Ziwei Liu Jiebo Luo Hao Fei LRM 78 7 0 16 Mar 2025
Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes Yaoting Wang Peiwen Sun Dongzhan Zhou Guangyao Li Honggang Zhang Di Hu VOS 32 5 0 15 Jul 2024
CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation Kexin Li Zongxin Yang Lei Chen Yezhou Yang Jun Xiao VOS 34 49 0 18 Sep 2023
AV-SAM: Segment Anything Model Meets Audio-Visual Localization and Segmentation Shentong Mo Yapeng Tian VLM 79 47 0 03 May 2023
One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale Fan Bao Shen Nie Kaiwen Xue Chongxuan Li Shiliang Pu Yaole Wang Gang Yue Yue Cao Hang Su Jun Zhu DiffM 188 147 0 12 Mar 2023
Self-Supervised Moving Vehicle Detection from Audio-Visual Cues Jannik Zürn Wolfram Burgard SSL 16 8 0 30 Jan 2022
Semantic Understanding of Scenes through the ADE20K Dataset Bolei Zhou Hang Zhao Xavier Puig Tete Xiao Sanja Fidler Adela Barriuso Antonio Torralba SSeg 243 1,817 0 18 Aug 2016