v1v2v3v4v5 (latest)

VisualGPT: Data-efficient Adaptation of Pretrained Language Models for Image Captioning

Computer Vision and Pattern Recognition (CVPR), 2021

20 February 2021

ArXiv (abs)PDF HTML Github (331★)

Papers citing "VisualGPT: Data-efficient Adaptation of Pretrained Language Models for Image Captioning"

50 / 165 papers shown

An Automated Survey of Generative Artificial Intelligence: Large Language Models, Architectures, Protocols, and ApplicationsJournal of Computer Science (JCS), 2023

Roberto Gozalo-Brizuela

Eduardo C. Garrido-Merchán

SyDa LM&MA ELM

440

142

10 Apr 2026

Leveraging Textual Compositional Reasoning for Robust Change Captioning

152

28 Nov 2025

Co-Training Vision Language Models for Remote Sensing Multi-task Learning

...

274

26 Nov 2025

Multimodal Continual Instruction Tuning with Dynamic Gradient Guidance

402

19 Nov 2025

Towards Fast LLM Fine-tuning through Zeroth-Order Optimization with Projected Gradient-Aligned Perturbations

167

21 Oct 2025

Graph4MM: Weaving Multimodal Learning with Structural Information

187

19 Oct 2025

QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models

Yutong Wang

Haiyu Wang

Sai Qian Zhang

133

18 Oct 2025

A Framework for Generating Artificial Datasets to Validate Absolute and Relative Position Concepts

George Correa de Araujo

H. Maia

Hélio Pedrini

196

17 Sep 2025

Bridging Vision Language Models and Symbolic Grounding for Video Question Answering

Haodi Ma

Vyom Pathak

Daisy Zhe Wang

177

15 Sep 2025

Galaxea Open-World Dataset and G0 Dual-System VLA Model

169

30 Aug 2025

VT-LVLM-AR: A Video-Temporal Large Vision-Language Model Adapter for Fine-Grained Action Recognition in Long-Term Videos

131

21 Aug 2025

WeatherPrompt: Multi-modality Representation Learning for All-Weather Drone Visual Geo-Localization

Jiahao Wen

Hang Yu

Zhedong Zheng

415

13 Aug 2025

PET2Rep: Towards Vision-Language Model-Drived Automated Radiology Report Generation for Positron Emission Tomography

...

229

06 Aug 2025

VLM4D: Towards Spatiotemporal Awareness in Vision Language Models

297

04 Aug 2025

ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents

245

30 Jul 2025

Group Relative Augmentation for Data Efficient Action Detection

202

28 Jul 2025

ViGText: Deepfake Image Detection with Vision-Language Model Explanations and Graph Neural Networks

316

24 Jul 2025

Med-GRIM: Enhanced Zero-Shot Medical VQA using prompt-embedded Multimodal Graph RAG

Rakesh Raj Madavan

Akshat Kaimal

Hashim Faisal

Chandrakala Shanmuganathan

MedIm

201

20 Jul 2025

ElasticMM: Efficient Multimodal LLMs Serving with Elastic Multimodal Parallelism

626

14 Jul 2025

Enabling Validation for Robust Few-Shot Recognition

592

05 Jun 2025

Light as Deception: GPT-driven Natural Relighting Against Vision-Language Pre-training Models

215

30 May 2025

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

Danny Driess

Jost Tobias Springenberg

...

359

29 May 2025

KerZOO: Kernel Function Informed Zeroth-Order Optimization for Accurate and Accelerated LLM Fine-Tuning

388

24 May 2025

Analysing the Robustness of Vision-Language-Models to Common Corruptions

431

18 Apr 2025

EarthGPT-X: A Spatial MLLM for Multi-level Multi-Source Remote Sensing Imagery Understanding with Visual PromptingIEEE Transactions on Geoscience and Remote Sensing (IEEE TGRS), 2025

495

17 Apr 2025

Video Summarization with Large Language ModelsComputer Vision and Pattern Recognition (CVPR), 2025

Min Jung Lee

Dayoung Gong

Minsu Cho

342

15 Apr 2025

Group-based Distinctive Image Captioning with Memory Difference Encoding and AttentionInternational Journal of Computer Vision (IJCV), 2024

502

03 Apr 2025

Semantic-Spatial Feature Fusion with Dynamic Graph Refinement for Remote Sensing Image CaptioningIEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing (IEEE J-STARS), 2025

Maofu Liu

Jiahui Liu

Xiaokang Zhang

354

30 Mar 2025

CubeRobot: Grounding Language in Rubik's Cube Manipulation via Vision-Language ModelThe Web Conference (WWW), 2025

307

25 Mar 2025

Mind with Eyes: from Language Reasoning to Multimodal Reasoning

377

23 Mar 2025

A Framework for a Capability-driven Evaluation of Scenario Understanding for Multimodal Large Language Models in Autonomous Driving

362

14 Mar 2025

A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

655

13 Mar 2025

CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question AnsweringComputer Vision and Pattern Recognition (CVPR), 2025

364

01 Mar 2025

A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and EthicsInformation Fusion (Inf. Fusion), 2023

906

302

28 Jan 2025

Patent Figure Classification using Large Vision-language ModelsEuropean Conference on Information Retrieval (ECIR), 2025

Sushil Awale

Eric Müller-Budack

Ralph Ewerth

241

22 Jan 2025

MuMu-LLaMA: Multi-modal Music Understanding and Generation via Large Language Models

339

09 Dec 2024

Multimodal Fact-Checking with Vision Language Models: A Probing Classifier based Solution with Embedding StrategiesInternational Conference on Computational Linguistics (COLING), 2024

R. Çekinel

Pinar Karagoz

Cagri Coltekin

285

06 Dec 2024

HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility EvaluatorComputer Vision and Pattern Recognition (CVPR), 2024

603

26 Nov 2024

Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial AttacksComputer Vision and Pattern Recognition (CVPR), 2024

403

24 Nov 2024

No Culture Left Behind: ArtELingo-28, a Benchmark of WikiArt with Captions in 28 LanguagesConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

257

06 Nov 2024

Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping

435

05 Nov 2024

SoK: Prompt Hacking of Large Language ModelsBigData Congress [Services Society] (BSS), 2024

310

16 Oct 2024

Removing Distributional Discrepancies in Captions Improves Image-Text AlignmentEuropean Conference on Computer Vision (ECCV), 2024

Yuheng Li

Haotian Liu

Mu Cai

Yijun Li

Eli Shechtman

Zhe Lin

Yong Jae Lee

Krishna Kumar Singh

VLM

957

01 Oct 2024

HPT++: Hierarchically Prompting Vision-Language Models with Multi-Granularity Knowledge Generation and Improved Structure Modeling

Yubin Wang

252

27 Aug 2024

Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis

541

09 Aug 2024

MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity

...

Yu Qiao

368

22 Jul 2024

Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images

450

19 Jul 2024

EarthMarker: Visual Prompt Learning for Region-level and Point-level Remote Sensing Imagery Comprehension

Wei Zhang

Miaoxin Cai

Tong Zhang

Jun Li

Zhuang Yin

Xuerui Mao

461

18 Jul 2024

Constructing Concept-based Models to Mitigate Spurious Correlations with Minimal Human Effort

Jeeyung Kim

Ze Wang

Qiang Qiu

322

12 Jul 2024

MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data

William Berman

A. Peysakhovich

377

26 Jun 2024