v1v2v3v4v5 (latest)

VisualGPT: Data-efficient Adaptation of Pretrained Language Models for Image Captioning

Computer Vision and Pattern Recognition (CVPR), 2021

20 February 2021

ArXiv (abs)PDF HTML Github (331★)

Papers citing "VisualGPT: Data-efficient Adaptation of Pretrained Language Models for Image Captioning"

50 / 165 papers shown

IWISDM: Assessing instruction following in multimodal models at scale

445

20 Jun 2024

Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt

389

06 Jun 2024

Can't make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models

297

30 May 2024

Lateralization MLP: A Simple Brain-inspired Architecture for Diffusion

Zizhao Hu

Mohammad Rostami

231

25 May 2024

Adversarial Robustness for Visual Grounding of Multimodal Large Language Models

Kuofeng Gao

245

16 May 2024

Chameleon: Mixed-Modal Early-Fusion Foundation Models

Chameleon Team

MLLM

586

634

16 May 2024

Learning Object States from Actions via Large Language Models

Masatoshi Tateno

Takuma Yagi

Ryosuke Furuta

Yoichi Sato

136

02 May 2024

ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images

Huy Quang Pham

Thang Kien-Bao Nguyen

225

29 Apr 2024

Energy-Latency Manipulation of Multi-modal Large Language Models via Verbose Samples

Kuofeng Gao

Jindong Gu

Wei Liu

339

25 Apr 2024

Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs

Lorenzo Baraldi

382

23 Apr 2024

Evolving Interpretable Visual Classifiers with Large Language Models

Mia Chiquier

Utkarsh Mall

Carl Vondrick

VLM

254

15 Apr 2024

What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and BiasesNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

255

03 Apr 2024

Generative Multi-modal Models are Good Class-Incremental Learners

Ming-Ming Cheng

314

27 Mar 2024

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Rocktim Jyoti Das

Simeon Emilov Hristov

Jinyan Su

Dimitar Iliyanov Dimitrov

Ivan Koychev

Preslav Nakov

CoGe ELM

260

15 Mar 2024

CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language ModelNeural Information Processing Systems (NeurIPS), 2024

Lianli Gao

Jingkuan Song

CLL

197

13 Mar 2024

Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection from Remote Sensing Imagery

Tong Zhang

211

06 Mar 2024

Attention Guidance Mechanism for Handwritten Mathematical Expression Recognition

Yutian Liu

Wenjun Ke

Jianguo Wei

297

04 Mar 2024

Retrieval-Augmented Generation for AI-Generated Content: A Survey

958

454

29 Feb 2024

ToolNet: Connecting Large Language Models with Massive Tools via Tool Graph

Xing Xie

172

29 Feb 2024

From Summary to Action: Enhancing Large Language Models for Complex Tasks with Open World APIs

Jianhua Han

Li Zhang

Hang Xu

141

28 Feb 2024

Visual Hallucinations of Multi-modal Large Language Models

286

22 Feb 2024

LVCHAT: Facilitating Long Video Comprehension

Julian McAuley

151

19 Feb 2024

$Describing Images $\textit{Fast and Slow}$: Quantifying and Predicting the Variation in Human Signals during Visuo-Linguistic Processes$

Describing Images

\textit{Fast and Slow}

: Quantifying and Predicting the Variation in Human Signals during Visuo-Linguistic Processes

Ece Takmaz

Sandro Pezzelle

Raquel Fernández

133

02 Feb 2024

MouSi: Poly-Visual-Expert Vision-Language Models

...

Xipeng Qiu

Xuanjing Huang

Zuxuan Wu

Yunchun Jiang

VLM

159

30 Jan 2024

EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain

Tong Zhang

433

214

30 Jan 2024

BETA: Binarized Energy-Efficient Transformer Accelerator at the EdgeInternational Symposium on Circuits and Systems (ISCAS), 2024

Yuhao Ji

Chao Fang

Zhongfeng Wang

239

22 Jan 2024

Inducing High Energy-Latency of Large Vision-Language Models with Verbose ImagesInternational Conference on Learning Representations (ICLR), 2024

Kuofeng Gao

Jindong Gu

Wei Liu

216

20 Jan 2024

Veagle: Advancements in Multimodal Representation Learning

Ishaan Bhola

175

18 Jan 2024

Cross-Attention Watermarking of Large Language ModelsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Folco Bertini Baldassini

H. Nguyen

Ching-Chung Chang

Isao Echizen

WaLM

140

12 Jan 2024

Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial RobustnessComputer Vision and Pattern Recognition (CVPR), 2024

348

09 Jan 2024

Benchmarking PathCLIP for Pathology Image Analysis

Yuxuan Sun

179

05 Jan 2024

ChartBench: A Benchmark for Complex Visual Reasoning in Charts

Zhengzhuo Xu

Sinan Du

Yiyan Qi

Chengjin Xu

Chun Yuan

Jian Guo

430

26 Dec 2023

Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language ModelsEuropean Conference on Computer Vision (ECCV), 2023

Jinjin Gu

399

14 Dec 2023

Learning Hierarchical Prompt with Structured Linguistic Knowledge for Vision-Language Models

Dongsheng Li

141

11 Dec 2023

Large Scale Foundation Models for Intelligent Manufacturing Applications: A Survey

...

364

11 Dec 2023

Causal-CoG: A Causal-Effect Look at Context Generation for Boosting Multi-modal Language ModelsComputer Vision and Pattern Recognition (CVPR), 2023

191

09 Dec 2023

InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models

317

04 Dec 2023

StoryGPT-V: Large Language Models as Consistent Story VisualizersComputer Vision and Pattern Recognition (CVPR), 2023

Xiaoqian Shen

Mohamed Elhoseiny

VLM

446

04 Dec 2023

Bootstrapping Interactive Image-Text Alignment for Remote Sensing Image CaptioningIEEE Transactions on Geoscience and Remote Sensing (TGRS), 2023

Cong Yang

Zuchao Li

Lefei Zhang

163

02 Dec 2023

X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning

Ran Xu

Silvio Savarese

Caiming Xiong

Juan Carlos Niebles

VLM MLLM

276

30 Nov 2023

Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language ModelsComputer Vision and Pattern Recognition (CVPR), 2023

631

28 Nov 2023

Vamos: Versatile Action Models for Video UnderstandingEuropean Conference on Computer Vision (ECCV), 2023

Shijie Wang

389

22 Nov 2023

Violet: A Vision-Language Model for Arabic Image Captioning with Gemini Decoder

Abdelrahman Mohamed

Fakhraddin Alwajih

El Moatez Billah Nagoudi

Alcides Alcoba Inciarte

Muhammad Abdul-Mageed

VLM MLLM

168

15 Nov 2023

SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

...

Yu Qiao

310

275

13 Nov 2023

InfMLLM: A Unified Framework for Visual-Language Tasks

Hao Li

144

12 Nov 2023

LRM: Large Reconstruction Model for Single Image to 3D

Yicong Hong

Kai Zhang

Jiuxiang Gu

517

679

08 Nov 2023

Emotional Theory of Mind: Bridging Fast Visual Processing with Slow Linguistic ReasoningAffective Computing and Intelligent Interaction (ACII), 2023

296

30 Oct 2023

InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot Interactions

192

18 Oct 2023

MusicAgent: An AI Agent for Music Understanding and Generation with Large Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Dingyao Yu

Kaitao Song

Peiling Lu

Tianyu He

Xu Tan

Wei Ye

Shikun Zhang

Jiang Bian

LLMAG

329

18 Oct 2023

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

Raghuraman Krishnamoorthi

1.4K

628

14 Oct 2023