v1v2 (latest)

Microsoft COCO Captions: Data Collection and Evaluation Server

1 April 2015

Piotr Dollar

Papers citing "Microsoft COCO Captions: Data Collection and Evaluation Server"

50 / 1,519 papers shown

BenchLMM: Benchmarking Cross-style Visual Capability of Large Multimodal ModelsEuropean Conference on Computer Vision (ECCV), 2023

319

05 Dec 2023

Object Recognition as Next Token PredictionComputer Vision and Pattern Recognition (CVPR), 2023

Ser-Nam Lim

507

04 Dec 2023

A Challenging Multimodal Video Summary: Simultaneously Extracting and Generating Keyframe-Caption Pairs from VideoConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

249

04 Dec 2023

Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models

Andrés Villa

Juan Carlos León Alcázar

Alvaro Soto

Bernard Ghanem

MLLM VLM

292

03 Dec 2023

Abstract Syntax Tree for Programming Language Understanding and Representation: How Far Are We?

...

Quanjun Zhang

An Guo

Xiang Chen

Yang Liu

Zhenyu Chen

289

01 Dec 2023

InstructSeq: Unifying Vision Tasks with Instruction-conditioned Multi-modal Sequence Generation

213

30 Nov 2023

TLDR: Text Based Last-layer Retraining for Debiasing Image ClassifiersIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Juhyeon Park

Seokhyeon Jeong

Taesup Moon

273

30 Nov 2023

Understanding and Improving In-Context Learning on Vision-language ModelsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Zhen Han

Jindong Gu

203

29 Nov 2023

VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language ModelsEuropean Conference on Computer Vision (ECCV), 2023

Shicheng Li

Lei Li

227

29 Nov 2023

MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced TrainingComputer Vision and Pattern Recognition (CVPR), 2023

Pavan Kumar Anasosalu Vasu

692

28 Nov 2023

LLaMA-VID: An Image is Worth 2 Tokens in Large Language ModelsEuropean Conference on Computer Vision (ECCV), 2023

333

480

28 Nov 2023

Large Language Models Meet Computer Vision: A Brief Survey

Raby Hamadi

LM&MA

150

28 Nov 2023

IG Captioner: Information Gain Captioners are Strong Zero-shot ClassifiersEuropean Conference on Computer Vision (ECCV), 2023

Siyuan Qiao

163

27 Nov 2023

Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating Video-based Large Language Models

Bin Lin

Lu Yuan

213

27 Nov 2023

Fully Authentic Visual Question Answering Dataset from Online CommunitiesEuropean Conference on Computer Vision (ECCV), 2023

Chongyan Chen

Xiyang Dai

Noel Codella

Yunsheng Li

Lu Yuan

Danna Gurari

373

27 Nov 2023

Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs

Yunxin Li

Zhenyu Liu

Wei Wang

Xiaochun Cao

Yuxin Ding

Xiaochun Cao

Min Zhang

181

27 Nov 2023

Large Language Models as Automated Aligners for benchmarking Vision-Language Models

Zhengying Liu

Ping Luo

209

24 Nov 2023

Griffon: Spelling out All Object Locations at Any Granularity with Large Language ModelsEuropean Conference on Computer Vision (ECCV), 2023

242

24 Nov 2023

ShareGPT4V: Improving Large Multi-Modal Models with Better CaptionsEuropean Conference on Computer Vision (ECCV), 2023

Conghui He

Dahua Lin

380

936

21 Nov 2023

Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation MatchingEuropean Conference on Computer Vision (ECCV), 2023

Wei Ji

276

21 Nov 2023

LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge

302

20 Nov 2023

Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention

Zuyao Chen

Jinlin Wu

Zhen Lei

Zhaoxiang Zhang

Changwen Chen

302

18 Nov 2023

Emu Edit: Precise Image Editing via Recognition and Generation Tasks

Devi Parikh

220

238

16 Nov 2023

Towards Open-Ended Visual Recognition with Large Language Model

Qihang Yu

Xiaohui Shen

Liang-Chieh Chen

VLM

246

14 Nov 2023

Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video UnderstandingComputer Vision and Pattern Recognition (CVPR), 2023

512

353

14 Nov 2023

Detecting and Correcting Hate Speech in Multimodal Memes with Large Visual Language Model

Minh-Hao Van

Xintao Wu

VLM MLLM

209

12 Nov 2023

Florence-2: Advancing a Unified Representation for a Variety of Vision TasksComputer Vision and Pattern Recognition (CVPR), 2023

Lu Yuan

398

393

10 Nov 2023

Training CLIP models on Data from Scientific Papers

Calvin Metzger

VLM CLIP

122

08 Nov 2023

TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models

216

08 Nov 2023

OtterHD: A High-Resolution Multi-modality Model

Ziwei Liu

190

07 Nov 2023

MetaReVision: Meta-Learning with Retrieval for Visually Grounded Compositional Concept AcquisitionConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Guangyue Xu

Parisa Kordjamshidi

Joyce Chai

162

02 Nov 2023

De-Diffusion Makes Text a Strong Cross-Modal InterfaceComputer Vision and Pattern Recognition (CVPR), 2023

Siyuan Qiao

274

01 Nov 2023

From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and OpportunitiesInformation Fusion (Inf. Fusion), 2023

Md Farhan Ishmam

Md Sakib Hossain Shovon

M. F. Mridha

Nilanjan Dey

402

01 Nov 2023

CapsFusion: Rethinking Image-Text Data at ScaleComputer Vision and Pattern Recognition (CVPR), 2023

370

31 Oct 2023

Language Guided Visual Question Answering: Elevate Your Multimodal Language Model Using Knowledge-Enriched PromptsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

156

31 Oct 2023

Harvest Video Foundation Models via Efficient Post-Pretraining

Yu Qiao

Ping Luo

CLIP VLM VGen

350

30 Oct 2023

Impressions: Understanding Visual Semiotics and Aesthetic ImpactConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Julia Kruk

Caleb Ziems

Diyi Yang

157

27 Oct 2023

CoDet: Co-Occurrence Guided Region-Word Alignment for Open-Vocabulary Object DetectionNeural Information Processing Systems (NeurIPS), 2023

Xin Wen

Xiaojuan Qi

260

25 Oct 2023

Knowledge Editing for Large Language Models: A SurveyACM Computing Surveys (ACM Comput. Surv.), 2023

455

202

24 Oct 2023

Leveraging Image-Text Similarity and Caption Modification for the DataComp Challenge: Filtering Track and BYOD Track

23 Oct 2023

OV-VG: A Benchmark for Open-Vocabulary Visual Grounding

Xiangtai Li

269

22 Oct 2023

ITEm: Unsupervised Image-Text Embedding Learning for eCommerce

Baohao Liao

Michael Kozielski

Sanjika Hewavitharana

132

22 Oct 2023

On the Transferability of Visually Grounded PCFGsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Yanpeng Zhao

Ivan Titov

144

21 Oct 2023

On the Language Encoder of Contrastive Cross-modal Models

145

20 Oct 2023

PrivImage: Differentially Private Synthetic Image Generation using Diffusion Models with Semantic-Aware Pretraining

358

19 Oct 2023

InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot Interactions

192

18 Oct 2023

LLM4SGG: Large Language Models for Weakly Supervised Scene Graph GenerationComputer Vision and Pattern Recognition (CVPR), 2023

Yeonjun In

537

16 Oct 2023

Bounding and Filling: A Fast and Flexible Framework for Image Captioning

187

15 Oct 2023

Leveraging Image Augmentation for Object Manipulation: Towards Interpretable Controllability in Object-Centric Learning

401

13 Oct 2023

From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language Models

411

13 Oct 2023