SSAST: Self-Supervised Audio Spectrogram Transformer

19 October 2021

Papers citing "SSAST: Self-Supervised Audio Spectrogram Transformer"

39 / 39 papers shown

Title
First qualitative observations on deep learning vision model YOLO and DETR for automated driving in Austria Stefan Schoder 44 0 0 31 Dec 2024
SF-Speech: Straightened Flow for Zero-Shot Voice Clone Xuyuan Li Zengqiang Shang Hua Hua Peiyang Shi Chen Yang Li Wang Pengyuan Zhang 43 2 0 16 Oct 2024
Effective Pre-Training of Audio Transformers for Sound Event Detection Florian Schmid T. Morocutti Francesco Foscarin Jan Schluter Paul Primus Gerhard Widmer ViT 23 2 0 14 Sep 2024
Towards Attention-based Contrastive Learning for Audio Spoof Detection C. Goel Surya Koppisetti Ben Colman Ali Shahriyari Gaurav Bharaj 50 5 0 03 Jul 2024
DCASE 2024 Task 4: Sound Event Detection with Heterogeneous Data and Missing Labels Samuele Cornell Janek Ebbers Constance Douwes Irene Martín-Morató Manu Harju A. Mesaros Romain Serizel 32 13 0 12 Jun 2024
Genuine-Focused Learning using Mask AutoEncoder for Generalized Fake Audio Detection Xiaopeng Wang Ruibo Fu Zhengqi Wen Zhiyong Wang Yuankun Xie ... Xuefei Liu Yongwei Li Xin Qi Yi Lu Shuchen Shi 33 4 0 05 Jun 2024
SSAMBA: Self-Supervised Audio Representation Learning with Mamba State Space Model Siavash Shams Sukru Samet Dindar Xilin Jiang N. Mesgarani Mamba 61 17 0 20 May 2024
AudioRepInceptionNeXt: A lightweight single-stream architecture for efficient audio recognition Kin Wai Lau Yasar Abbas Ur Rehman L. Po 33 1 0 21 Apr 2024
LEAP: LLM-Generation of Egocentric Action Programs Eadom Dessalene Michael Maynord Cornelia Fermuller Yiannis Aloimonos 18 3 0 29 Nov 2023
A-JEPA: Joint-Embedding Predictive Architecture Can Listen Zhengcong Fei Mingyuan Fan Junshi Huang 21 17 0 27 Nov 2023
Exploring Self-Supervised Contrastive Learning of Spatial Sound Event Representation Xilin Jiang Cong Han Yinghao Aaron Li N. Mesgarani SSL 21 1 0 27 Sep 2023
Test-Time Training for Speech Sri Harsha Dumpala Chandramouli Shama Sastry Sageev Oore 30 1 0 19 Sep 2023
AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes Zhaohui Li Haitao Wang Xinghua Jiang 29 1 0 14 Aug 2023
Pengi: An Audio Language Model for Audio Tasks Soham Deshmukh Benjamin Elizalde Rita Singh Huaming Wang MLLM AuLLM 30 156 0 19 May 2023
A vector quantized masked autoencoder for audiovisual speech emotion recognition Samir Sadok Simon Leglaive Renaud Séguier SSL 79 6 0 05 May 2023
Transformer-based Sequence Labeling for Audio Classification based on MFCCs C. Sonali S. ChinmayiB A. Balasubramanian 22 0 0 30 Apr 2023
Multiscale Audio Spectrogram Transformer for Efficient Audio Classification Wenjie Zhu M. Omar 35 22 0 19 Mar 2023
Enhancing Unsupervised Audio Representation Learning via Adversarial Sample Generation Yulin Pan Xiangteng He Biao Gong Yuxin Peng Yiliang Lv SSL 19 0 0 15 Mar 2023
Low-Complexity Audio Embedding Extractors Florian Schmid Khaled Koutini Gerhard Widmer 16 4 0 03 Mar 2023
MelHuBERT: A simplified HuBERT on Mel spectrograms Tzu-Quan Lin Hung-yi Lee Hao Tang SSL 24 13 0 17 Nov 2022
Music Instrument Classification Reprogrammed Hsin-Hung Chen Alexander Lerch 19 4 0 15 Nov 2022
PSVRF: Learning to restore Pitch-Shifted Voice without reference Yangfu Li Xiaodan Lin Jiaxin Yang 11 0 0 06 Oct 2022
Learning Temporal Resolution in Spectrogram for Audio Classification Haohe Liu Xubo Liu Qiuqiang Kong Wenwu Wang Mark D. Plumbley 32 7 0 04 Oct 2022
Audio Barlow Twins: Self-Supervised Audio Representation Learning Jonah Anton H. Coppock Pancham Shukla Bjorn W. Schuller BDL SSL 32 8 0 28 Sep 2022
TVLT: Textless Vision-Language Transformer Zineng Tang Jaemin Cho Yixin Nie Mohit Bansal VLM 49 28 0 28 Sep 2022
Non-Linguistic Supervision for Contrastive Learning of Sentence Embeddings Yiren Jian Chongyang Gao Soroush Vosoughi SSL 18 15 0 20 Sep 2022
SSDPT: Self-Supervised Dual-Path Transformer for Anomalous Sound Detection in Machine Condition Monitoring Jisheng Bai Jianfeng Chen Mou Wang Muhammad Saad Ayub Qingli Yan 45 15 0 06 Aug 2022
UAVM: Towards Unifying Audio and Visual Models Yuan Gong Alexander H. Liu Andrew Rouditchenko James R. Glass 25 20 0 29 Jul 2022
GMML is All you Need Sara Atito Muhammad Awais J. Kittler ViT VLM 34 18 0 30 May 2022
Learning Representations for New Sound Classes With Continual Self-Supervised Learning Zhepei Wang Cem Subakan Xilin Jiang Junkai Wu Efthymios Tzinis Mirco Ravanelli Paris Smaragdis CLL SSL 57 19 0 15 May 2022
Masked Spectrogram Prediction For Self-Supervised Audio Pre-Training Dading Chong Helin Wang Peilin Zhou Qingcheng Zeng 24 65 0 27 Apr 2022
Sound Localization by Self-Supervised Time Delay Estimation Ziyang Chen David Fouhey Andrew Owens SSL 9 19 0 26 Apr 2022
Masked Spectrogram Modeling using Masked Autoencoders for Learning General-purpose Audio Representation Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi N. Harada K. Kashino 24 65 0 26 Apr 2022
Learning Audio Representations with MLPs Mashrur M. Morshed Ahmad Omar Ahsan H. Mahmud Md. Kamrul Hasan 16 4 0 16 Mar 2022
Recent Advances in Vision Transformer: A Survey and Outlook of Recent Work Khawar Islam ViT 24 44 0 03 Mar 2022
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 73 1,694 0 26 Oct 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 298 5,761 0 29 Apr 2021
Multi-task self-supervised learning for Robust Speech Recognition Mirco Ravanelli Jianyuan Zhong Santiago Pascual P. Swietojanski João Monteiro J. Trmal Yoshua Bengio SSL 171 288 0 25 Jan 2020
Bag of Tricks for Image Classification with Convolutional Neural Networks Tong He Zhi-Li Zhang Hang Zhang Zhongyue Zhang Junyuan Xie Mu Li 216 1,398 0 04 Dec 2018