Retrieval-augmented Image Captioning

16 February 2023

Papers citing "Retrieval-augmented Image Captioning"

23 / 23 papers shown

Title
VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents Ryota Tanaka Taichi Iki Taku Hasegawa Kyosuke Nishida Kuniko Saito Jun Suzuki VLM 45 0 0 14 Apr 2025
Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook Xu Zheng Ziqiao Weng Yuanhuiyi Lyu Lutao Jiang Haiwei Xue Bin Ren Danda Pani Paudel N. Sebe Luc Van Gool Xuming Hu 3DV 37 0 0 23 Mar 2025
Accelerating Retrieval-Augmented Generation Derrick Quinn Mohammad Nouri Neel Patel John Salihu Alireza Salemi Sukhan Lee Hamed Zamani Mohammad Alian RALM 3DV 81 2 0 14 Dec 2024
DIR: Retrieval-Augmented Image Captioning with Comprehensive Understanding Hao Wu Zhihang Zhong Xiao Sun DiffM 70 0 0 02 Dec 2024
RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models Haoran Hao Jiaming Han Changsheng Li Yu-Feng Li Xiangyu Yue RALM 43 1 0 17 Oct 2024
Vocabulary-free Image Classification and Semantic Segmentation Alessandro Conti Enrico Fini Massimiliano Mancini Paolo Rota Yiming Wang Elisa Ricci VLM 30 2 0 16 Apr 2024
Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval Minkuk Kim Hyeon Bae Kim Jinyoung Moon Jinwoo Choi Seong Tae Kim 27 16 0 11 Apr 2024
Retrieval-Augmented Open-Vocabulary Object Detection Jooyeon Kim Eulrang Cho Sehyung Kim Hyunwoo J. Kim VLM ObjD 22 2 0 08 Apr 2024
Retrieval-Augmented Generation for AI-Generated Content: A Survey Penghao Zhao Hailin Zhang Qinhan Yu Zhengren Wang Yunteng Geng Fangcheng Fu Ling Yang Wentao Zhang Jie Jiang Bin Cui 3DV 101 215 0 29 Feb 2024
RIGHT: Retrieval-augmented Generation for Mainstream Hashtag Recommendation Run-Ze Fan Yixing Fan Jiangui Chen J. Guo Ruqing Zhang Xueqi Cheng 66 6 0 16 Dec 2023
EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension Jiaxuan Li D. Vo Akihiro Sugimoto Hideki Nakayama KELM VLM 37 23 0 27 Nov 2023
RECAP: Retrieval-Augmented Audio Captioning Sreyan Ghosh Sonal Kumar Chandra Kiran Reddy Evuru R. Duraiswami Dinesh Manocha VLM 62 17 0 18 Sep 2023
Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence Generation Zhiyuan Li Dongnan Liu Heng Wang Chaoyi Zhang Weidong (Tom) Cai RALM 20 0 0 27 Jul 2023
Vocabulary-free Image Classification Alessandro Conti Enrico Fini Massimiliano Mancini Paolo Rota Yiming Wang Elisa Ricci VLM 26 22 0 01 Jun 2023
LMCap: Few-shot Multilingual Image Captioning by Retrieval Augmented Language Model Prompting R. Ramos Bruno Martins Desmond Elliott VLM 13 16 0 31 May 2023
Retrieving Multimodal Information for Augmented Generation: A Survey Ruochen Zhao Hailin Chen Weishi Wang Fangkai Jiao Do Xuan Long ... Bosheng Ding Xiaobao Guo Minzhi Li Xingxuan Li Shafiq R. Joty 13 80 0 20 Mar 2023
SmallCap: Lightweight Image Captioning Prompted with Retrieval Augmentation R. Ramos Bruno Martins Desmond Elliott Yova Kementchedjhieva VLM 14 86 0 30 Sep 2022
Crossmodal-3600: A Massively Multilingual Multimodal Evaluation Dataset Ashish V. Thapliyal Jordi Pont-Tuset Xi Chen Radu Soricut VGen 67 71 0 25 May 2022
Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho Jie Lei Hao Tan Mohit Bansal MLLM 249 518 0 04 Feb 2021
VinVL: Revisiting Visual Representations in Vision-Language Models Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao ObjD VLM 252 157 0 02 Jan 2021
Pre-trained Models for Natural Language Processing: A Survey Xipeng Qiu Tianxiang Sun Yige Xu Yunfan Shao Ning Dai Xuanjing Huang LM&MA VLM 229 1,444 0 18 Mar 2020
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 250 922 0 24 Sep 2019
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 279 39,083 0 01 Sep 2014