Cross-Domain Image Captioning with Discriminative Finetuning

Cross-Domain Image Captioning with Discriminative Finetuning

4 April 2023

Michele Bevilacqua

Eleonora Gualdoni

Nathanaël Carraz Rakotonirina

Francesca Franzon

Papers citing "Cross-Domain Image Captioning with Discriminative Finetuning"

17 / 17 papers shown

Title
FLUXSynID: A Framework for Identity-Controlled Synthetic Face Generation with Document and Live Images Raul Ismayilov Dzemila Sero Luuk Spreeuwers 12 0 0 12 May 2025
Metropolis-Hastings Captioning Game: Knowledge Fusion of Vision Language Models via Decentralized Bayesian Inference Yuta Matsui Ryosuke Yamaki Ryo Ueda Seitaro Shinagawa Tadahiro Taniguchi MLLM 31 1 0 13 Apr 2025
Positive-Augmented Contrastive Learning for Vision-and-Language Evaluation and Training Sara Sarto Nicholas Moratelli Marcella Cornia Lorenzo Baraldi Rita Cucchiara 23 3 0 09 Oct 2024
No Detail Left Behind: Revisiting Self-Retrieval for Fine-Grained Image Captioning Manu Gaur Darshan Singh Makarand Tapaswi 45 1 0 04 Sep 2024
Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis Uri Berger Gabriel Stanovsky Omri Abend Lea Frermann 24 0 0 09 Aug 2024
Towards Semantic Equivalence of Tokenization in Multimodal LLM Shengqiong Wu Hao Fei Xiangtai Li Jiayi Ji Hanwang Zhang Tat-Seng Chua Shuicheng Yan MLLM 55 25 0 07 Jun 2024
SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant Guohao Sun Can Qin Jiamian Wang Zeyuan Chen Ran Xu Zhiqiang Tao MLLM VLM LRM 16 1 0 17 Mar 2024
NExT-GPT: Any-to-Any Multimodal LLM Shengqiong Wu Hao Fei Leigang Qu Wei Ji Tat-Seng Chua MLLM 12 448 0 11 Sep 2023
Reinforcement Learning for Generative AI: A Survey Yuanjiang Cao Quan.Z Sheng Julian McAuley Lina Yao SyDa 23 10 0 28 Aug 2023
Towards More Human-like AI Communication: A Review of Emergent Communication Research Nicolo’ Brandizzi 23 7 0 01 Aug 2023
Simulated Mental Imagery for Robotic Task Planning Shijia Li Tomas Kulvicius M. Tamosiunaite F. Worgotter LM&Ro 11 1 0 15 Nov 2022
LAVIS: A Library for Language-Vision Intelligence Dongxu Li Junnan Li Hung Le Guangsen Wang Silvio Savarese S. Hoi VLM 90 51 0 15 Sep 2022
Fine-grained Image Captioning with CLIP Reward Jaemin Cho Seunghyun Yoon Ajinkya Kale Franck Dernoncourt Trung Bui Mohit Bansal CLIP 115 76 0 26 May 2022
Multimodal Knowledge Alignment with Reinforcement Learning Youngjae Yu Jiwan Chung Heeseung Yun Jack Hessel J. Park ... Prithviraj Ammanabrolu Rowan Zellers Ronan Le Bras Gunhee Kim Yejin Choi VLM 109 35 0 25 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 380 4,010 0 28 Jan 2022
From Show to Tell: A Survey on Deep Learning-based Image Captioning Matteo Stefanini Marcella Cornia Lorenzo Baraldi S. Cascianelli G. Fiameni Rita Cucchiara 3DV VLM MLLM 51 244 0 14 Jul 2021