FSD50K: An Open Dataset of Human-Labeled Sound Events

1 October 2020

Xavier Serra

Papers citing "FSD50K: An Open Dataset of Human-Labeled Sound Events"

50 / 67 papers shown

Title
Recognizing Ornaments in Vocal Indian Art Music with Active Annotation Sumit Kumar Parampreet Singh Vipul Arora 27 0 0 07 May 2025
Kimi-Audio Technical Report KimiTeam Ding Ding Zeqian Ju Yichong Leng S. Liu ... Z. Yang Aoxiong Yin Ruibin Yuan Y. Zhang Zaida Zhou AuLLM VLM 108 3 0 25 Apr 2025
Fundamental Survey on Neuromorphic Based Audio Classification Amlan Basu Pranav Chaudhari Gaetano Di Caterina AI4TS 33 0 0 20 Feb 2025
Generative Data Augmentation Challenge: Zero-Shot Speech Synthesis for Personalized Speech Enhancement Jae-Sung Bae Anastasia Kuznetsova Dinesh Manocha John Hershey Trausti Kristjansson Minje Kim 72 0 0 23 Jan 2025
Audio-Language Datasets of Scenes and Events: A Survey Gijs Wijngaard Elia Formisano Michele Esposito M. Dumontier 79 2 0 10 Jan 2025
Do Audio-Language Models Understand Linguistic Variations? Ramaneswaran Selvakumar Sonal Kumar Hemant Kumar Giri Nishit Anand Ashish Seth Sreyan Ghosh Dinesh Manocha AuLLM VLM 42 1 0 21 Oct 2024
Enhancing Robustness in Deep Reinforcement Learning: A Lyapunov Exponent Approach Rory Young Nicolas Pugeault AAML 57 3 0 14 Oct 2024
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data Sreyan Ghosh Sonal Kumar Zhifeng Kong Rafael Valle Bryan Catanzaro Dinesh Manocha DiffM 39 2 0 02 Oct 2024
SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios Kai Li Wendi Sang Chang Zeng Runxuan Yang Guo Chen Xiaolin Hu 26 2 0 02 Oct 2024
Exploring Text-Queried Sound Event Detection with Audio Source Separation Han Yin Jisheng Bai Yang Xiao Hui Wang Siqi Zheng Yafeng Chen Rohan Kumar Das Chong Deng Jianfeng Chen 30 3 0 20 Sep 2024
SoundBeam meets M2D: Target Sound Extraction with Audio Foundation Model Carlos Hernandez-Olivan Marc Delcroix Tsubasa Ochiai Daisuke Niizumi Naohiro Tawara Tomohiro Nakatani Shoko Araki 29 2 0 19 Sep 2024
AudioComposer: Towards Fine-grained Audio Generation with Natural Language Descriptions Y. Wang Hangting Chen Dongchao Yang Zhiyong Wu Xixin Wu DiffM 40 2 0 19 Sep 2024
High-Resolution Speech Restoration with Latent Diffusion Model Tushar Dhyani Florian Lux Michele Mancusi Giorgio Fabbro Fritz Hohl Ngoc Thang Vu DiffM 30 0 0 17 Sep 2024
MambaFoley: Foley Sound Generation using Selective State-Space Models Marco Furio Colombo Francesca Ronchini Luca Comanducci Fabio Antonacci Mamba 20 1 0 13 Sep 2024
Salmon: A Suite for Acoustic Language Model Evaluation Gallil Maimon Amit Roth Yossi Adi ELM AuLLM 49 5 0 11 Sep 2024
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling Shengpeng Ji Ziyue Jiang Xize Cheng Yifu Chen Minghui Fang ... Rongjie Huang Yidi Jiang Qian Chen Zhou Zhao Zhou Zhao VLM 52 32 0 29 Aug 2024
Audio-based Step-count Estimation for Running -- Windowing and Neural Network Baselines Philipp Wagner Andreas Triantafyllopoulos Alexander Gebhard Björn Schuller 35 0 0 10 Jun 2024
Listenable Maps for Zero-Shot Audio Classifiers Francesco Paissan Luca Della Libera Mirco Ravanelli Cem Subakan 32 4 0 27 May 2024
The VoicePrivacy 2024 Challenge Evaluation Plan N. Tomashenko Xiaoxiao Miao Pierre Champion Sarina Meyer Xin Wang Emmanuel Vincent Michele Panariello Nicholas W. D. Evans Junichi Yamagishi Massimiliano Todisco 30 21 0 03 Apr 2024
Multi-label Open-set Audio Classification Sripathi Sridhar Mark Cartwright VLM 24 3 0 20 Oct 2023
CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models Sreyan Ghosh Ashish Seth Sonal Kumar Utkarsh Tyagi Chandra Kiran Reddy Evuru S. Ramaneswaran S. Sakshi Oriol Nieto R. Duraiswami Dinesh Manocha AuLLM VLM CoGe 35 21 0 12 Oct 2023
Exploring Self-Supervised Contrastive Learning of Spatial Sound Event Representation Xilin Jiang Cong Han Yinghao Aaron Li N. Mesgarani SSL 13 1 0 27 Sep 2023
Joint Audio and Speech Understanding Yuan Gong Alexander H. Liu Hongyin Luo Leonid Karlinsky James R. Glass AuLLM 21 66 0 25 Sep 2023
AGS: An Dataset and Taxonomy for Domestic Scene Sound Event Recognition Nan Che Chenrui Liu Fei Yu 25 0 0 30 Aug 2023
Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement Daiki Takeuchi Yasunori Ohishi Daisuke Niizumi Noboru Harada K. Kashino 11 6 0 23 Aug 2023
AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes Zhaohui Li Haitao Wang Xinghua Jiang 24 1 0 14 Aug 2023
$The Sound Demixing Challenge 2023 $\unicode{x2013}$ Cinematic Demixing Track$ The Sound Demixing Challenge 2023 $\unicode{x2013}$ Cinematic Demixing Track Stefan Uhlich Giorgio Fabbro M. Hirano Shusuke Takahashi G. Wichern ... R. Solovyev A. Stempkovskiy T. Habruseva M. Sukhovei Yuki Mitsufuji 32 11 0 14 Aug 2023
Adapting Language-Audio Models as Few-Shot Audio Learners Jinhua Liang Xubo Liu Haohe Liu Huy P Phan Emmanouil Benetos Mark D. Plumbley Wenwu Wang VLM 25 19 0 28 May 2023
Pengi: An Audio Language Model for Audio Tasks Soham Deshmukh Benjamin Elizalde Rita Singh Huaming Wang MLLM AuLLM 30 156 0 19 May 2023
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities Peng Wang Shijie Wang Junyang Lin Shuai Bai Xiaohuan Zhou Jingren Zhou Xinggang Wang Chang Zhou VLM MLLM ObjD 16 114 0 18 May 2023
Technical Understanding from IML Hands-on Experience: A Study through a Public Event for Science Museum Visitors Wataru Kawabe Yuri Nakao Akihisa Shitara Yusuke Sugano 16 1 0 10 May 2023
Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning Nikhil Singh Chih-Wei Wu Iroro Orife Mahdi M. Kalayeh 23 2 0 12 Apr 2023
Improving Self-Supervised Learning for Audio Representations by Feature Diversity and Decorrelation Bac Nguyen Stefan Uhlich Fabien Cardinaux SSL 26 3 0 07 Mar 2023
Amortised Invariance Learning for Contrastive Self-Supervision Ruchika Chavhan H. Gouk Jan Stuehmer Calum Heggan Mehrdad Yaghoobi Timothy M. Hospedales SSL 20 11 0 24 Feb 2023
TF-GridNet: Integrating Full- and Sub-Band Modeling for Speech Separation Zhongqiu Wang Samuele Cornell Shukjae Choi Younglo Lee Byeonghak Kim Shinji Watanabe 15 116 0 22 Nov 2022
Describing emotions with acoustic property prompts for speech emotion recognition Hira Dhamyal Benjamin Elizalde Soham Deshmukh Huaming Wang Bhiksha Raj Rita Singh 18 10 0 14 Nov 2022
Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation Yusong Wu K. Chen Tianyu Zhang Yuchen Hui Marianna Nezhurina Taylor Berg-Kirkpatrick Shlomo Dubnov CLIP 37 480 0 12 Nov 2022
CochlScene: Acquisition of acoustic scene data using crowdsourcing Il-Young Jeong Jeongsoon Park 17 25 0 04 Nov 2022
CoLoC: Conditioned Localizer and Classifier for Sound Event Localization and Detection Slawomir Kapka J. Tkaczuk 16 0 0 25 Oct 2022
Improving generalizability of distilled self-supervised speech processing models under distorted settings Kuan-Po Huang Yu-Kuan Fu Tsung-Yuan Hsu Fabian Ritter Gutierrez Fan Wang Liang-Hsuan Tseng Yu Zhang Hung-yi Lee 14 13 0 14 Oct 2022
Learning Temporal Resolution in Spectrogram for Audio Classification Haohe Liu Xubo Liu Qiuqiang Kong Wenwu Wang Mark D. Plumbley 32 7 0 04 Oct 2022
UniKW-AT: Unified Keyword Spotting and Audio Tagging Heinrich Dinkel Yongqing Wang Zhiyong Yan Junbo Zhang Yujun Wang 24 3 0 23 Sep 2022
I2CR: Improving Noise Robustness on Keyword Spotting Using Inter-Intra Contrastive Regularization Dianwen Ng J. Yip Tanmay Surana Zhao Yang Chong Zhang Yukun Ma Chongjia Ni Chng Eng Siong B. Ma 27 6 0 14 Sep 2022
Exploring Fine-Grained Audiovisual Categorization with the SSW60 Dataset Grant Van Horn Rui Qian Kimberly Wilber Hartwig Adam Oisin Mac Aodha Serge J. Belongie 19 10 0 21 Jul 2022
Urban Rhapsody: Large-scale exploration of urban soundscapes Joao Rulff Fabio Miranda Maryam Hosseini Marcos Lage M. Cartwright Graham Dove J. P. Bello Claudio T. Silva 6 7 0 25 May 2022
Masked Spectrogram Modeling using Masked Autoencoders for Learning General-purpose Audio Representation Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi N. Harada K. Kashino 16 65 0 26 Apr 2022
BYOL for Audio: Exploring Pre-trained General-purpose Audio Representations Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi N. Harada K. Kashino SSL 29 53 0 15 Apr 2022
Text-Driven Separation of Arbitrary Sounds Kevin Kilgour Beat Gfeller Qingqing Huang A. Jansen Scott Wisdom Marco Tagliasacchi 19 30 0 12 Apr 2022
SoundBeam: Target sound extraction conditioned on sound-class labels and enrollment clues for increased performance and continuous learning Marc Delcroix Jorge Bennasar Vázquez Tsubasa Ochiai K. Kinoshita Yasunori Ohishi S. Araki VLM 17 31 0 08 Apr 2022
MetaAudio: A Few-Shot Audio Classification Benchmark Calum Heggan S. Budgett Timothy M. Hospedales Mehrdad Yaghoobi VLM 31 32 0 05 Apr 2022