Revisiting Deep Audio-Text Retrieval Through the Lens of Transportation

16 May 2024

Papers citing "Revisiting Deep Audio-Text Retrieval Through the Lens of Transportation"

7 / 7 papers shown

Title
Tree-Sliced Wasserstein Distance with Nonlinear Projection T. Tran Viet-Hoang Tran Thanh T. Chu Trang Pham Laurent El Ghaoui Tam Le T. Nguyen 19 0 0 02 May 2025
Expanding on EnCLAP with Auxiliary Retrieval Model for Automated Audio Captioning Jaeyeon Kim Jaeyoon Jung Minjeong Jeon Sang Hoon Woo Jinjoo Lee 24 1 0 02 Sep 2024
Sliced Wasserstein Estimation with Control Variates Khai Nguyen Nhat Ho 24 11 0 30 Apr 2023
Audio Retrieval with WavText5K and CLAP Training Soham Deshmukh Benjamin Elizalde Huaming Wang 3DV CLIP 113 50 0 28 Sep 2022
HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection Ke Chen Xingjian Du Bilei Zhu Zejun Ma Taylor Berg-Kirkpatrick Shlomo Dubnov ViT 114 264 0 02 Feb 2022
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding Hu Xu Gargi Ghosh Po-Yao (Bernie) Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Florian Metze Luke Zettlemoyer Christoph Feichtenhofer CLIP VLM 245 557 0 28 Sep 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021