v1v2v3v4v5 (latest)

VisualGPT: Data-efficient Adaptation of Pretrained Language Models for Image Captioning

Computer Vision and Pattern Recognition (CVPR), 2021

20 February 2021

ArXiv (abs)PDF HTML Github (331★)

Papers citing "VisualGPT: Data-efficient Adaptation of Pretrained Language Models for Image Captioning"

50 / 165 papers shown

Leveraging Textual Compositional Reasoning for Robust Change Captioning

113

28 Nov 2025

Co-Training Vision Language Models for Remote Sensing Multi-task Learning

...

179

26 Nov 2025

Multimodal Continual Instruction Tuning with Dynamic Gradient Guidance

328

19 Nov 2025

Towards Fast LLM Fine-tuning through Zeroth-Order Optimization with Projected Gradient-Aligned Perturbations

145

21 Oct 2025

Graph4MM: Weaving Multimodal Learning with Structural Information

118

19 Oct 2025

QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models

Yutong Wang

Haiyu Wang

Sai Qian Zhang

18 Oct 2025

A Framework for Generating Artificial Datasets to Validate Absolute and Relative Position Concepts

George Correa de Araujo

H. Maia

Hélio Pedrini

144

17 Sep 2025

Bridging Vision Language Models and Symbolic Grounding for Video Question Answering

Haodi Ma

Vyom Pathak

Daisy Zhe Wang

114

15 Sep 2025

Galaxea Open-World Dataset and G0 Dual-System VLA Model

121

30 Aug 2025

VT-LVLM-AR: A Video-Temporal Large Vision-Language Model Adapter for Fine-Grained Action Recognition in Long-Term Videos

21 Aug 2025

WeatherPrompt: Multi-modality Representation Learning for All-Weather Drone Visual Geo-Localization

Jiahao Wen

Hang Yu

Zhedong Zheng

251

13 Aug 2025

PET2Rep: Towards Vision-Language Model-Drived Automated Radiology Report Generation for Positron Emission Tomography

...

146

06 Aug 2025

VLM4D: Towards Spatiotemporal Awareness in Vision Language Models

185

04 Aug 2025

ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents

199

30 Jul 2025

Group Relative Augmentation for Data Efficient Action Detection

163

28 Jul 2025

ViGText: Deepfake Image Detection with Vision-Language Model Explanations and Graph Neural Networks

242

24 Jul 2025

Med-GRIM: Enhanced Zero-Shot Medical VQA using prompt-embedded Multimodal Graph RAG

Rakesh Raj Madavan

Akshat Kaimal

Hashim Faisal

Chandrakala Shanmuganathan

MedIm

122

20 Jul 2025

ElasticMM: Efficient Multimodal LLMs Serving with Elastic Multimodal Parallelism

544

14 Jul 2025

Enabling Validation for Robust Few-Shot Recognition

449

05 Jun 2025

Light as Deception: GPT-driven Natural Relighting Against Vision-Language Pre-training Models

162

30 May 2025

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

Danny Driess

Jost Tobias Springenberg

...

294

29 May 2025

KerZOO: Kernel Function Informed Zeroth-Order Optimization for Accurate and Accelerated LLM Fine-Tuning

356

24 May 2025

Analysing the Robustness of Vision-Language-Models to Common Corruptions

342

18 Apr 2025

EarthGPT-X: A Spatial MLLM for Multi-level Multi-Source Remote Sensing Imagery Understanding with Visual PromptingIEEE Transactions on Geoscience and Remote Sensing (IEEE TGRS), 2025

402

17 Apr 2025

Video Summarization with Large Language ModelsComputer Vision and Pattern Recognition (CVPR), 2025

Min Jung Lee

Dayoung Gong

Minsu Cho

265

15 Apr 2025

Group-based Distinctive Image Captioning with Memory Difference Encoding and AttentionInternational Journal of Computer Vision (IJCV), 2024

370

03 Apr 2025

Semantic-Spatial Feature Fusion with Dynamic Graph Refinement for Remote Sensing Image CaptioningIEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing (IEEE J-STARS), 2025

Maofu Liu

Jiahui Liu

Xiaokang Zhang

287

30 Mar 2025

CubeRobot: Grounding Language in Rubik's Cube Manipulation via Vision-Language ModelThe Web Conference (WWW), 2025

245

25 Mar 2025

Mind with Eyes: from Language Reasoning to Multimodal Reasoning

320

23 Mar 2025

A Framework for a Capability-driven Evaluation of Scenario Understanding for Multimodal Large Language Models in Autonomous Driving

278

14 Mar 2025

A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

519

13 Mar 2025

CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question AnsweringComputer Vision and Pattern Recognition (CVPR), 2025

332

01 Mar 2025

Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping

348

21 Feb 2025

A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and EthicsInformation Fusion (Inf. Fusion), 2023

726

269

28 Jan 2025

Patent Figure Classification using Large Vision-language ModelsEuropean Conference on Information Retrieval (ECIR), 2025

Sushil Awale

Eric Müller-Budack

Ralph Ewerth

210

22 Jan 2025

MuMu-LLaMA: Multi-modal Music Understanding and Generation via Large Language Models

270

09 Dec 2024

Multimodal Fact-Checking with Vision Language Models: A Probing Classifier based Solution with Embedding StrategiesInternational Conference on Computational Linguistics (COLING), 2024

R. Çekinel

Pinar Karagoz

Cagri Coltekin

238

06 Dec 2024

HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility EvaluatorComputer Vision and Pattern Recognition (CVPR), 2024

453

26 Nov 2024

Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial AttacksComputer Vision and Pattern Recognition (CVPR), 2024

349

24 Nov 2024

No Culture Left Behind: ArtELingo-28, a Benchmark of WikiArt with Captions in 28 LanguagesConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

193

06 Nov 2024

SoK: Prompt Hacking of Large Language ModelsBigData Congress [Services Society] (BSS), 2024

170

16 Oct 2024

Removing Distributional Discrepancies in Captions Improves Image-Text AlignmentEuropean Conference on Computer Vision (ECCV), 2024

Yuheng Li

Haotian Liu

Mu Cai

Yijun Li

Eli Shechtman

Zhe Lin

Yong Jae Lee

Krishna Kumar Singh

VLM

904

01 Oct 2024

HPT++: Hierarchically Prompting Vision-Language Models with Multi-Granularity Knowledge Generation and Improved Structure Modeling

Yubin Wang

228

27 Aug 2024

Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis

438

09 Aug 2024

MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity

...

Yu Qiao

311

22 Jul 2024

Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images

391

19 Jul 2024

EarthMarker: Visual Prompt Learning for Region-level and Point-level Remote Sensing Imagery Comprehension

Wei Zhang

Miaoxin Cai

Tong Zhang

Jun Li

Zhuang Yin

Xuerui Mao

389

18 Jul 2024

Constructing Concept-based Models to Mitigate Spurious Correlations with Minimal Human Effort

Jeeyung Kim

Ze Wang

Qiang Qiu

236

12 Jul 2024

MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data

William Berman

A. Peysakhovich

280

26 Jun 2024

Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach

641

24 Jun 2024