v1v2v3v4 (latest)

Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models

19 May 2015

Bryan A. Plummer

Liwei Wang

Christopher M. Cervantes

Papers citing "Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models"

50 / 1,325 papers shown

GlitchBench: Can large multimodal models detect video game glitches?Computer Vision and Pattern Recognition (CVPR), 2023

Mohammad Reza Taesiri

361

08 Dec 2023

SA-Attack: Improving Adversarial Transferability of Vision-Language Pre-training Models via Self-Augmentation

Yang Liu

342

08 Dec 2023

Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects

232

08 Dec 2023

Localized Symbolic Knowledge Distillation for Visual Commonsense ModelsNeural Information Processing Systems (NeurIPS), 2023

...

Yejin Choi

272

08 Dec 2023

Improved Visual Grounding through Self-Consistent Explanations

Ruozhen He

Paola Cascante-Bonilla

280

07 Dec 2023

OT-Attack: Enhancing Adversarial Transferability of Vision-Language Models via Optimal Transport Optimization

Dongchen Han

Yang Liu

Yang Bai

Jindong Gu

Yang Liu

Simeng Qin

VLM

285

07 Dec 2023

Mitigating Open-Vocabulary Caption Hallucinations

399

06 Dec 2023

TokenCompose: Text-to-Image Diffusion with Token-level Supervision

Zhizhou Sha

284

06 Dec 2023

Mismatch Quest: Visual and Textual Feedback for Image-Text MisalignmentEuropean Conference on Computer Vision (ECCV), 2023

Daniel Cohen-Or

242

05 Dec 2023

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

...

Lei Zhang

Jianwei Yang

352

112

05 Dec 2023

Aligning and Prompting Everything All at Once for Universal Visual PerceptionComputer Vision and Pattern Recognition (CVPR), 2023

Rongrong Ji

290

04 Dec 2023

Good Questions Help Zero-Shot Image Reasoning

274

04 Dec 2023

ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual PromptsComputer Vision and Pattern Recognition (CVPR), 2023

Mu Cai

Haotian Liu

Dennis Park

Siva Karthik Mustikovela

332

153

01 Dec 2023

RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human FeedbackComputer Vision and Pattern Recognition (CVPR), 2023

...

Zhiyuan Liu

Maosong Sun

447

345

01 Dec 2023

MLLMs-Augmented Visual-Language Representation Learning

Yanqing Liu

Kai Wang

Wenqi Shao

Ping Luo

Yu Qiao

Mike Zheng Shou

Kaipeng Zhang

Yang You

VLM

263

30 Nov 2023

The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understandingComputer Vision and Pattern Recognition (CVPR), 2023

368

29 Nov 2023

UniIR: Training and Benchmarking Universal Multimodal Information Retrievers

Ge Zhang

269

128

28 Nov 2023

Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and CaptionsComputer Vision and Pattern Recognition (CVPR), 2023

423

28 Nov 2023

MVBench: A Comprehensive Multi-modal Video Understanding BenchmarkComputer Vision and Pattern Recognition (CVPR), 2023

...

Ping Luo

Yu Qiao

673

861

28 Nov 2023

Reason out Your Layout: Evoking the Layout Master from Large Language Models for Text-to-Image Synthesis

Jianbo Yuan

Hongxia Yang

206

28 Nov 2023

IG Captioner: Information Gain Captioners are Strong Zero-shot ClassifiersEuropean Conference on Computer Vision (ECCV), 2023

Siyuan Qiao

163

27 Nov 2023

EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World ComprehensionComputer Vision and Pattern Recognition (CVPR), 2023

285

27 Nov 2023

EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language ModelsComputer Vision and Pattern Recognition (CVPR), 2023

Peng Li

265

27 Nov 2023

Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs

Yunxin Li

Zhenyu Liu

Wei Wang

Xiaochun Cao

Yuxin Ding

Xiaochun Cao

Min Zhang

185

27 Nov 2023

Griffon: Spelling out All Object Locations at Any Granularity with Large Language ModelsEuropean Conference on Computer Vision (ECCV), 2023

242

24 Nov 2023

Invisible Relevance Bias: Text-Image Retrieval Models Prefer AI-Generated ImagesAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2023

Jun Xu

261

23 Nov 2023

From Wrong To Right: A Recursive Approach Towards Vision-Language ExplanationConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Boyi Li

252

21 Nov 2023

What's left can't be right -- The remaining positional incompetence of contrastive vision-language models

205

20 Nov 2023

Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention

Zuyao Chen

Jinlin Wu

Zhen Lei

Zhaoxiang Zhang

Changwen Chen

302

18 Nov 2023

The Impact of Familiarity on Naming Variation: A Study on Object Naming in Mandarin Chinese

170

16 Nov 2023

Trustworthy Large Models in Vision: A Survey

Ziyan Guo

Kepeng Xu

Jun Liu

657

16 Nov 2023

Violet: A Vision-Language Model for Arabic Image Captioning with Gemini Decoder

Abdelrahman Mohamed

Fakhraddin Alwajih

El Moatez Billah Nagoudi

Alcides Alcoba Inciarte

Muhammad Abdul-Mageed

VLM MLLM

169

15 Nov 2023

Towards Open-Ended Visual Recognition with Large Language Model

Qihang Yu

Xiaohui Shen

Liang-Chieh Chen

VLM

258

14 Nov 2023

SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

...

Yu Qiao

378

275

13 Nov 2023

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

...

Julian McAuley

Zicheng Liu

396

145

13 Nov 2023

ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in Video-Language ModelsInternational Conference on Learning Representations (ICLR), 2023

...

276

13 Nov 2023

Which One? Leveraging Context Between Objects and Multiple Views for Language GroundingNorth American Chapter of the Association for Computational Linguistics (NAACL), 2023

212

12 Nov 2023

PerceptionGPT: Effectively Fusing Visual Perception into LLMComputer Vision and Pattern Recognition (CVPR), 2023

Jiahui Gao

Tong Zhang

200

11 Nov 2023

GOAT: GO to Any Thing

...

Devendra Singh Chaplot

366

114

10 Nov 2023

Florence-2: Advancing a Unified Representation for a Variety of Vision TasksComputer Vision and Pattern Recognition (CVPR), 2023

Lu Yuan

404

393

10 Nov 2023

Watermarking Vision-Language Pre-trained Models for Multi-modal Embedding as a Service

Qi Wu

214

10 Nov 2023

Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in ClutterConference on Robot Learning (CoRL), 2023

243

09 Nov 2023

Active Mining Sample Pair Semantics for Image-text Matching

210

09 Nov 2023

u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model

444

09 Nov 2023

NExT-Chat: An LMM for Chat, Detection and Segmentation

Ao Zhang

Yuan Yao

Wei Ji

Zhiyuan Liu

Tat-Seng Chua

MLLM VLM

374

08 Nov 2023

Scene-Driven Multimodal Knowledge Graph Construction for Embodied AIIEEE Transactions on Knowledge and Data Engineering (TKDE), 2023

Li Zhixu

227

07 Nov 2023

GLaMM: Pixel Grounding Large Multimodal ModelComputer Vision and Pattern Recognition (CVPR), 2023

H. Rasheed

Muhammad Maaz

Sahal Shaji Mullappilly

Abdelrahman M. Shaker

Salman Khan

Hisham Cholakkal

Rao M. Anwer

Erix Xing

Ming-Hsuan Yang

Fahad S. Khan

MLLM VLM

434

405

06 Nov 2023

CogVLM: Visual Expert for Pretrained Language ModelsNeural Information Processing Systems (NeurIPS), 2023

Weihan Wang

Qingsong Lv

Wenmeng Yu

Wenyi Hong

Ji Qi

...

Bin Xu

Juanzi Li

Yuxiao Dong

Ming Ding

Jie Tang

VLM MLLM

720

06 Nov 2023

Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language ModelsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

283

05 Nov 2023

A New Fine-grained Alignment Method for Image-text Matching

Yang Zhang

167

03 Nov 2023