Benchmarking and Improving Detail Image Caption

Benchmarking and Improving Detail Image Caption

29 May 2024

Papers citing "Benchmarking and Improving Detail Image Caption"

16 / 16 papers shown

Title
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models Weiye Xu J. Wang Weiyun Wang Zhe Chen Wengang Zhou ... Xiaohua Wang Xizhou Zhu Wenhai Wang Jifeng Dai Jinguo Zhu VLM LRM 48 0 0 21 Apr 2025
AeroLite: Tag-Guided Lightweight Generation of Aerial Image Captions Xing Zi Tengjun Ni Xianjing Fan Xian Tao Jun Li Ali Braytee Mukesh Prasad 19 0 0 13 Apr 2025
Perception in Reflection Yana Wei Liang Zhao Kangheng Lin En Yu Yuang Peng ... Jianjian Sun Haoran Wei Zheng Ge Xiangyu Zhang Vishal M. Patel 31 0 0 09 Apr 2025
Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception Ruotian Peng Haiying He Yake Wei Yandong Wen D. Hu VLM 34 0 0 09 Apr 2025
4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding Wenxuan Zhu Bing Li Cheng Zheng Jinjie Mai Jun-Cheng Chen ... Abdullah Hamdi Sara Rojas Martinez Chia-Wen Lin Mohamed Elhoseiny Bernard Ghanem VLM 48 0 0 22 Mar 2025
CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era Kanzhi Cheng Wenpo Song Jiaxin Fan Zheng Ma Qiushi Sun Fangzhi Xu Chenyang Yan Nuo Chen Jianbing Zhang Jiajun Chen MLLM VLM 45 1 0 16 Mar 2025
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity Jing Bi Junjia Guo Susan Liang Guangyu Sun Luchuan Song ... Jinxi He Jiarui Wu A. Vosoughi C. L. P. Chen Chenliang Xu LRM 62 1 0 14 Mar 2025
Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning Qinghao Ye Xianhan Zeng Fu Li C. Li Haoqi Fan CoGe 77 0 0 10 Mar 2025
What Is a Good Caption? A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness Zhihang Liu Chen-Wei Xie Bin Wen Feiwu Yu Jixuan Chen ... Pandeng Li Yun Zheng Hongtao Xie Yun Zheng Hongtao Xie VLM CoGe 96 0 0 19 Feb 2025
From Simple to Professional: A Combinatorial Controllable Image Captioning Agent Xinran Wang Muxi Diao Baoteng Li H. Zhang Kongming Liang Z. Ma MLLM CLIP 79 0 0 15 Dec 2024
Chimera: Improving Generalist Model with Domain-Specific Experts Tianshuo Peng M. Li Hongbin Zhou Renqiu Xia Renrui Zhang ... Aojun Zhou Botian Shi Tao Chen Bo Zhang Xiangyu Yue 84 4 0 08 Dec 2024
Positive-Augmented Contrastive Learning for Vision-and-Language Evaluation and Training Sara Sarto Nicholas Moratelli Marcella Cornia Lorenzo Baraldi Rita Cucchiara 23 3 0 09 Oct 2024
BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues Sara Sarto Marcella Cornia Lorenzo Baraldi Rita Cucchiara 28 6 0 29 Jul 2024
InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model Xiao-wen Dong Pan Zhang Yuhang Zang Yuhang Cao Bin Wang ... Conghui He Xingcheng Zhang Yu Qiao Dahua Lin Jiaqi Wang VLM MLLM 73 89 0 29 Jan 2024
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks Zhe Chen Jiannan Wu Wenhai Wang Weijie Su Guo Chen ... Bin Li Ping Luo Tong Lu Yu Qiao Jifeng Dai VLM MLLM 135 895 0 21 Dec 2023
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 845 0 17 Feb 2021