Text-Driven Separation of Arbitrary Sounds

12 April 2022

Papers citing "Text-Driven Separation of Arbitrary Sounds"

26 / 26 papers shown

Title
Beyond Speaker Identity: Text Guided Target Speech Extraction Mingyue Huo Abhinav Jain Cong Phuoc Huynh Fanjie Kong Pichao Wang Zhu Liu Vimal Bhat 40 0 0 17 Jan 2025
Audio-Language Datasets of Scenes and Events: A Survey Gijs Wijngaard Elia Formisano Michele Esposito M. Dumontier 79 2 0 10 Jan 2025
Task-Aware Unified Source Separation Kohei Saijo Janek Ebbers François G. Germain G. Wichern Jonathan Le Roux 32 2 0 31 Oct 2024
OpenSep: Leveraging Large Language Models with Textual Inversion for Open World Audio Separation Tanvir Mahmud Diana Marculescu VLM 18 2 0 28 Sep 2024
Leveraging Audio-Only Data for Text-Queried Target Sound Extraction Kohei Saijo Janek Ebbers François G. Germain Sameer Khurana G. Wichern Jonathan Le Roux 21 1 0 20 Sep 2024
Language-Queried Target Sound Extraction Without Parallel Training Data Hao Ma Zhiyuan Peng Xu Li Yukai Li Mingjie Shao Qiuqiang Kong Ju Liu VLM 69 1 0 14 Sep 2024
Weakly-supervised Audio Separation via Bi-modal Semantic Similarity Tanvir Mahmud Saeed Amizadeh K. Koishida Diana Marculescu AI4TS 9 2 0 02 Apr 2024
CATSE: A Context-Aware Framework for Causal Target Sound Extraction Shrishail Baligar M. Kegler Bryce Irvin Marko Stamenovic Shawn Newsam 31 0 0 21 Mar 2024
Listen, Chat, and Edit: Text-Guided Soundscape Modification for Enhanced Auditory Experience Xilin Jiang Cong Han Yinghao Aaron Li N. Mesgarani KELM 26 4 0 06 Feb 2024
Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables Bandhav Veluri Malek Itani Justin Chan Takuya Yoshioka Shyamnath Gollakota 20 15 0 01 Nov 2023
Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction Xiang Hao Jibin Wu Jianwei Yu Chenglin Xu Kay Chen Tan 19 10 0 11 Oct 2023
Separate Anything You Describe Xubo Liu Qiuqiang Kong Yan Zhao Haohe Liu Yiitan Yuan Yuzhuo Liu Rui Xia Yuxuan Wang Mark D. Plumbley Wenwu Wang VLM 22 43 0 09 Aug 2023
Complete and separate: Conditional separation with missing target source attribute completion Dimitrios Bralios Efthymios Tzinis Paris Smaragdis 27 0 0 27 Jul 2023
CAPTDURE: Captioned Sound Dataset of Single Sources Yuki Okamoto Kanta Shimonishi Keisuke Imoto Kota Dohi Shota Horiguchi Y. Kawaguchi 16 1 0 28 May 2023
Language-Guided Audio-Visual Source Separation via Trimodal Consistency Reuben Tan Arijit Ray Andrea Burns Bryan A. Plummer Justin Salamon Oriol Nieto Bryan C. Russell Kate Saenko 17 20 0 28 Mar 2023
Target Sound Extraction with Variable Cross-modality Clues Chenda Li Yao Qian Zhuo Chen Dongmei Wang Takuya Yoshioka Shujie Liu Y. Qian Michael Zeng VLM 16 13 0 15 Mar 2023
MAQA: A Multimodal QA Benchmark for Negation Judith Yue Li Aren Jansen Qingqing Huang Joonseok Lee Ravi Ganti Dima Kuzmin 22 5 0 09 Jan 2023
CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled Videos Hao-Wen Dong Naoya Takahashi Yuki Mitsufuji Julian McAuley Taylor Berg-Kirkpatrick VLM CLIP 21 24 0 14 Dec 2022
iQuery: Instruments as Queries for Audio-Visual Sound Separation Jiaben Chen Renrui Zhang Dongze Lian Jiaqi Yang Ziyao Zeng Jianbo Shi 16 26 0 07 Dec 2022
Optimal Condition Training for Target Source Separation Efthymios Tzinis G. Wichern Paris Smaragdis Jonathan Le Roux 27 5 0 11 Nov 2022
Real-Time Target Sound Extraction Bandhav Veluri Justin Chan Malek Itani Tuochao Chen Takuya Yoshioka Shyamnath Gollakota 27 30 0 04 Nov 2022
MuLan: A Joint Embedding of Music Audio and Natural Language Qingqing Huang A. Jansen Joonseok Lee Ravi Ganti Judith Yue Li D. Ellis 14 131 0 26 Aug 2022
AudioScopeV2: Audio-Visual Attention Architectures for Calibrated Open-Domain On-Screen Sound Separation Efthymios Tzinis Scott Wisdom Tal Remez J. Hershey 27 29 0 20 Jul 2022
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021
Interspeech 2021 Deep Noise Suppression Challenge Chandan K. A. Reddy Harishchandra Dubey K. Koishida A. Nair Vishak Gopal Ross Cutler Sebastian Braun H. Gamper R. Aichner Sriram Srinivasan AI4CE 72 160 0 06 Jan 2021
Source separation with weakly labelled data: An approach to computational auditory scene analysis Qiuqiang Kong Yuxuan Wang Xuchen Song Yin Cao Wenwu Wang Mark D. Plumbley 19 47 0 06 Feb 2020