Slow-Fast Auditory Streams For Audio Recognition

5 March 2021

Dima Damen

Papers citing "Slow-Fast Auditory Streams For Audio Recognition"

21 / 21 papers shown

Title
AudioRepInceptionNeXt: A lightweight single-stream architecture for efficient audio recognition Kin Wai Lau Yasar Abbas Ur Rehman L. Po 35 1 0 21 Apr 2024
Soundbay: Deep Learning Framework for Marine Mammals and Bioacoustic Research Noam Bressler Michael Faran Amit Galor Michael Moshe Michelashvili Tomer Nachshon Noa Weiss 28 0 0 07 Nov 2023
ARGUS: Visualization of AI-Assisted Task Guidance in AR Sonia Castelo Joao Rulff Erin McGowan Bea Steers Guande Wu ... Qinghong Sun Huy Q. Vo J. P. Bello M. Krone Claudio Silva 31 18 0 11 Aug 2023
UniBriVL: Robust Universal Representation and Generation of Audio Driven Diffusion Models Sen Fang Bowen Gao Yangjian Wu T. Teoh DiffM 18 1 0 29 Jul 2023
Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning Nikhil Singh Chih-Wei Wu Iroro Orife Mahdi M. Kalayeh 23 2 0 12 Apr 2023
Multiscale Audio Spectrogram Transformer for Efficient Audio Classification Wenjie Zhu M. Omar 35 22 0 19 Mar 2023
Exploring Efficient-Tuned Learning Audio Representation Method from BriVL Sen Fang Yang Wu Bowen Gao Jingwen Cai T. Teoh DiffM 16 1 0 08 Mar 2023
Epic-Sounds: A Large-scale Dataset of Actions That Sound Jaesung Huh Jacob Chalk Evangelos Kazakos Dima Damen Andrew Zisserman EgoV 18 41 0 01 Feb 2023
Play It Back: Iterative Attention for Audio Recognition Alexandros Stergiou Dima Damen 31 4 0 20 Oct 2022
Learning Temporal Resolution in Spectrogram for Audio Classification Haohe Liu Xubo Liu Qiuqiang Kong Wenwu Wang Mark D. Plumbley 34 7 0 04 Oct 2022
Contrastive Audio-Visual Masked Autoencoder Yuan Gong Andrew Rouditchenko Alexander H. Liu David F. Harwath Leonid Karlinsky Hilde Kuehne James R. Glass 32 120 0 02 Oct 2022
UAVM: Towards Unifying Audio and Visual Models Yuan Gong Alexander H. Liu Andrew Rouditchenko James R. Glass 27 20 0 29 Jul 2022
MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One More Step Towards Generalization Alexander Kunitsyn M. Kalashnikov Maksim Dzabraev Andrei Ivaniuta 28 16 0 14 Mar 2022
PolyViT: Co-training Vision Transformers on Images, Videos and Audio Valerii Likhosherstov Anurag Arnab K. Choromanski Mario Lucic Yi Tay Adrian Weller Mostafa Dehghani ViT 35 73 0 25 Nov 2021
Towards Learning Universal Audio Representations Luyu Wang Pauline Luc Yan Wu Adrià Recasens Lucas Smaira ... Andrew Jaegle Jean-Baptiste Alayrac Sander Dieleman João Carreira Aaron van den Oord SSL 24 68 0 23 Nov 2021
Wav2CLIP: Learning Robust Audio Representations From CLIP Ho-Hsiang Wu Prem Seetharaman Kundan Kumar J. P. Bello CLIP VLM 31 267 0 21 Oct 2021
The Impact of Spatiotemporal Augmentations on Self-Supervised Audiovisual Representation Learning Haider Al-Tahan Y. Mohsenzadeh SSL AI4TS 27 0 0 13 Oct 2021
CLIPort: What and Where Pathways for Robotic Manipulation Mohit Shridhar Lucas Manuelli D. Fox LM&Ro 36 629 0 24 Sep 2021
A Lottery Ticket Hypothesis Framework for Low-Complexity Device-Robust Neural Acoustic Scene Classification Hao Yen Chao-Han Huck Yang Hu Hu Sabato Marco Siniscalchi Qing Wang ... Yuanjun Zhao Yuzhong Wu Yannan Wang Jun Du Chin-Hui Lee 11 16 0 03 Jul 2021
Attention Bottlenecks for Multimodal Fusion Arsha Nagrani Shan Yang Anurag Arnab A. Jansen Cordelia Schmid Chen Sun 25 541 0 30 Jun 2021
Audiovisual SlowFast Networks for Video Recognition Fanyi Xiao Yong Jae Lee Kristen Grauman Jitendra Malik Christoph Feichtenhofer 194 205 0 23 Jan 2020