AVCap: Leveraging Audio-Visual Features as Text Tokens for Captioning

10 July 2024

Junmo Kim

Papers citing "AVCap: Leveraging Audio-Visual Features as Text Tokens for Captioning"

2 / 2 papers shown

Title
Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention Xubo Liu Qiushi Huang Xinhao Mei Haohe Liu Qiuqiang Kong ... Yu Zhang Lilian H. Y. Tang Mark D. Plumbley Volkan Kilicc Wenwu Wang 38 18 0 28 Oct 2022
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,740 0 26 Sep 2016