v1v2 (latest)

Microsoft COCO Captions: Data Collection and Evaluation Server

1 April 2015

Piotr Dollar

Papers citing "Microsoft COCO Captions: Data Collection and Evaluation Server"

50 / 1,519 papers shown

Think Before You Act: A Two-Stage Framework for Mitigating Gender Bias Towards Vision-Language Tasks

336

27 May 2024

Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models

C. N. Vasconcelos

Abdullah Rashwan Austin Waters

...

David J. Fleet

208

27 May 2024

Multilingual Diversity Improves Vision-Language Representations

352

27 May 2024

A Survey of Multimodal Large Language Model from A Data-centric Perspective

...

Conghui He

393

26 May 2024

OmniBind: Teach to Build Unequal-Scale Modality Interaction for Omni-Bind of All

Yuanhuiyi Lyu

Xueye Zheng

Dahun Kim

Lin Wang

271

25 May 2024

Disease-informed Adaptation of Vision-Language Models

275

24 May 2024

Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models

468

110

24 May 2024

DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception

Run Luo

Yunshui Li

Longze Chen

Wanwei He

Ting-En Lin

...

Xiaobo Xia

Min Yang

453

24 May 2024

PipeFusion: Patch-level Pipeline Parallelism for Diffusion Transformers Inference

542

23 May 2024

A Survey on Vision-Language-Action Models for Embodied AI

910

169

23 May 2024

Safety Alignment for Vision Language Models

272

22 May 2024

Efficient Multimodal Large Language Models: A Survey

Yizhang Jin

Jian Li

Yexin Liu

Tianjun Gu

Kai Wu

...

Xin Tan

Zhenye Gan

Yabiao Wang

Chengjie Wang

Lizhuang Ma

LRM

307

17 May 2024

Libra: Building Decoupled Vision System on Large Language ModelsInternational Conference on Machine Learning (ICML), 2024

202

16 May 2024

CLIP with Quality Captions: A Strong Pretraining for Vision Tasks

Pavan Kumar Anasosalu Vasu

266

14 May 2024

Open-Vocabulary Object Detection via Neighboring Region Attention AlignmentEngineering applications of artificial intelligence (EAAI), 2024

229

14 May 2024

Memory-Space Visual Prompting for Efficient Vision-Language Fine-TuningInternational Conference on Machine Learning (ICML), 2024

345

09 May 2024

Universal Adversarial Perturbations for Vision-Language Pre-trained ModelsAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2024

Pengfei Zhang

Zi Huang

Guangdong Bai

AAML

195

09 May 2024

MANTIS: Interleaved Multi-Image Instruction Tuning

420

183

02 May 2024

FITA: Fine-grained Image-Text Aligner for Radiology Report Generation

210

02 May 2024

DOCCI: Descriptions of Connected and Contrasting Images

...

275

30 Apr 2024

Exploring the Distinctiveness and Fidelity of the Descriptions Generated by Large Vision-Language Models

213

26 Apr 2024

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

...

Dahua Lin

Yu Qiao

Jifeng Dai

Wenhai Wang

MLLM VLM

530

994

25 Apr 2024

DesignProbe: A Graphic Design Benchmark for Multimodal Large Language Models

228

23 Apr 2024

EventLens: Leveraging Event-Aware Pretraining and Cross-modal Linking Enhances Visual Commonsense Reasoning

201

22 Apr 2024

The Solution for the CVPR2024 NICE Image Captioning Challenge

216

19 Apr 2024

Towards Multi-modal Transformers in Federated Learning

286

18 Apr 2024

ANCHOR: LLM-driven News Subject Conditioning for Text-to-Image Synthesis

Aashish Anantha Ramakrishnan

Sharon X. Huang

Dongwon Lee

225

15 Apr 2024

UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark

Bin Lin

145

15 Apr 2024

COCONut: Modernizing COCO Segmentation

XueQing Deng

Qihang Yu

Peng Wang

Xiaohui Shen

Liang-Chieh Chen

206

12 Apr 2024

Training-free Boost for Open-Vocabulary Object Detection with Confidence Aggregation

Yanhao Zheng

Kai Liu

ObjD

206

12 Apr 2024

Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies

Zichao Li

Cihang Xie

E. D. Cubuk

CLIP

220

12 Apr 2024

Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language ModelsInternational Conference on Learning Representations (ICLR), 2024

Max Argus

Thomas Brox

518

11 Apr 2024

BRAVE: Broadening the visual encoding of vision-language modelsEuropean Conference on Computer Vision (ECCV), 2024

308

10 Apr 2024

Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype GenerationComputer Vision and Pattern Recognition (CVPR), 2024

Lorenzo Baraldi

221

09 Apr 2024

Improving Interpretable Embeddings for Ad-hoc Video Search with Generative Captions and Multi-word Concept Bank

Jiaxin Wu

Chong-Wah Ngo

W. Chan

VGen

190

09 Apr 2024

MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning

278

08 Apr 2024

ByteEdit: Boost, Comply and Accelerate Generative Image Editing

...

175

07 Apr 2024

CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept MatchingNeural Information Processing Systems (NeurIPS), 2024

459

04 Apr 2024

Unblind Text Inputs: Predicting Hint-text of Text Input in Mobile Apps via LLMInternational Conference on Human Factors in Computing Systems (CHI), 2024

175

03 Apr 2024

Weakly-Supervised 3D Scene Graph Generation via Visual-Linguistic Assisted Pseudo-labelingIEEE transactions on multimedia (IEEE TMM), 2024

252

03 Apr 2024

ViTamin: Designing Scalable Vision Models in the Vision-Language EraComputer Vision and Pattern Recognition (CVPR), 2024

Liang-Chieh Chen

415

02 Apr 2024

mChartQA: A universal benchmark for multimodal Chart Question Answer based on Vision-Language Alignment and Reasoning

Jingxuan Wei

Nan Xu

Guiyong Chang

Yin Luo

Bihui Yu

Ruifeng Guo

212

02 Apr 2024

VideoDistill: Language-aware Vision Distillation for Video Question Answering

Yu Qiao

242

01 Apr 2024

LLaMA-Excitor: General Instruction Tuning via Indirect Feature Interaction

Yu Qiao

236

01 Apr 2024

Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning

211

01 Apr 2024

From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models

Dahua Lin

339

01 Apr 2024

DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model

Yu Qiao

Ping Luo

Rongrong Ji

LM&Ro LLMAG VLM

134

31 Mar 2024

MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions

Siyuan Qiao

307

28 Mar 2024

LocCa: Visual Pretraining with Location-aware Captioners

Ibrahim Alabdulmohsin

379

28 Mar 2024

ACES: Evaluating Automated Audio Captioning Models on the Semantics of Sounds

214

27 Mar 2024