v1v2 (latest)

Microsoft COCO Captions: Data Collection and Evaluation Server

1 April 2015

Piotr Dollar

Papers citing "Microsoft COCO Captions: Data Collection and Evaluation Server"

50 / 1,519 papers shown

Toward Interactive Regional Understanding in Vision-Large Language Models

305

27 Mar 2024

Can 3D Vision-Language Models Truly Understand Natural Language?

Jiahui Liu

Xiaojuan Qi

433

21 Mar 2024

Open-Vocabulary Attention Maps with Token Optimization for Semantic Segmentation in Diffusion Models

Pablo Marcos-Manchón

Roberto Alcover-Couso

Juan C. Sanmiguel

Jose M. Martínez

VLM

294

21 Mar 2024

What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models

211

20 Mar 2024

As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks?

Anjun Hu

Jindong Gu

Francesco Pinto

Konstantinos Kamnitsas

Juil Sock

AAML SILM

261

19 Mar 2024

A Survey on Quality Metrics for Text-to-Image GenerationIEEE Transactions on Visualization and Computer Graphics (TVCG), 2024

Timo Ropinski

300

18 Mar 2024

SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant

Ran Xu

288

17 Mar 2024

LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival

192

16 Mar 2024

Refining Knowledge Transfer on Audio-Image Temporal Agreement for Audio-Text Cross Retrieval

237

16 Mar 2024

Generative Region-Language Pretraining for Open-Ended Object DetectionComputer Vision and Pattern Recognition (CVPR), 2024

Jianfei Cai

224

15 Mar 2024

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

...

524

246

14 Mar 2024

Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image EditingEuropean Conference on Computer Vision (ECCV), 2024

239

14 Mar 2024

GiT: Towards Generalist Vision Transformer through Universal Language InterfaceEuropean Conference on Computer Vision (ECCV), 2024

Muhammad Ferjad Naeem

Jiaming Song

Bernt Schiele

Liwei Wang

VLM

280

14 Mar 2024

Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring

294

14 Mar 2024

DAM: Dynamic Adapter Merging for Continual Video QA LearningIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

Feng Cheng

Ziyang Wang

Yi-Lin Sung

Yan-Bo Lin

Mohit Bansal

Gedas Bertasius

CLL MoMe

367

13 Mar 2024

An Empirical Study of Parameter Efficient Fine-tuning on Vision-Language Pre-train ModelIEEE International Conference on Multimedia and Expo (ICME), 2024

Yuxin Tian

Mouxing Yang

Yunfan Li

Dayiheng Liu

Xingzhang Ren

Xiaocui Peng

Jiancheng Lv

VLM

161

13 Mar 2024

Beyond Text: Frozen Large Language Models in Visual Signal ComprehensionComputer Vision and Pattern Recognition (CVPR), 2024

Lei Zhu

Fangyun Wei

Yanye Lu

MLLM VLM

222

12 Mar 2024

Synth

^2

: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings

Christos Kaplanis

238

12 Mar 2024

Transformer based Multitask Learning for Image Captioning and Object DetectionPacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), 2024

Debolena Basak

P. K. Srijith

M. Desarkar

190

10 Mar 2024

CLIP the Bias: How Useful is Balancing Data in Multimodal Learning?International Conference on Learning Representations (ICLR), 2024

Ibrahim Alabdulmohsin

213

07 Mar 2024

Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection from Remote Sensing Imagery

Tong Zhang

211

06 Mar 2024

Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity

247

05 Mar 2024

When ControlNet Meets Inexplicit Masks: A Case Study of ControlNet on its Contour-following Ability

Bo Du

220

01 Mar 2024

DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models

Tianle Cai

Qinsheng Zhang

Song Han

417

29 Feb 2024

The All-Seeing Project V2: Towards General Relation Comprehension of the Open World

...

Yu Qiao

318

29 Feb 2024

SynArtifact: Classifying and Alleviating Artifacts in Synthetic Images via Vision-Language Model

Bin Cao

Jianhao Yuan

Yexin Liu

Jian Li

Shuyang Sun

Jing Liu

Bo Zhao

DiffM

286

28 Feb 2024

Vision Language Model-based Caption Evaluation Method Leveraging Visual Context Extraction

225

28 Feb 2024

Acquiring Linguistic Knowledge from Multimodal Input

Theodor Amariucai

Alexander Scott Warstadt

CLL

291

27 Feb 2024

MCF-VC: Mitigate Catastrophic Forgetting in Class-Incremental Learning for Multimodal Video Captioning

223

27 Feb 2024

Demonstrating and Reducing Shortcuts in Vision-Language Representation Learning

Maurits J. R. Bleeker

Mariya Hendriksen

Andrew Yates

Maarten de Rijke

VLM

324

27 Feb 2024

ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks

Yang Liu

Sebastien Ourselin

214

27 Feb 2024

Towards Open-ended Visual Quality Comparison

Haoning Wu

Zicheng Zhang

...

Xiaohong Liu

Guangtao Zhai

Shiqi Wang

Weisi Lin

AAML

245

26 Feb 2024

CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models

232

22 Feb 2024

Vision-Language Navigation with Embodied Intelligence: A Survey

357

22 Feb 2024

VL-Trojan: Multimodal Instruction Backdoor Attacks against Autoregressive Visual Language Models

278

21 Feb 2024

CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models

...

Peng Li

Maosong Sun

314

21 Feb 2024

A Multimodal In-Context Tuning Approach for E-Commerce Product Description Generation

Baotian Hu

Lin Ma

245

21 Feb 2024

CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples

390

20 Feb 2024

ConVQG: Contrastive Visual Question Generation with Multimodal Guidance

177

20 Feb 2024

Language-guided Image Reflection Separation

270

19 Feb 2024

Interpretable Embedding for Ad-hoc Video Search

Jiaxin Wu

Chong-Wah Ngo

177

19 Feb 2024

Cobra Effect in Reference-Free Image Captioning Metrics

243

18 Feb 2024

Assessing News Thumbnail Representativeness: Counterfactual text can enhance the cross-modal matching ability

Yejun Yoon

Seunghyun Yoon

Kunwoo Park

321

17 Feb 2024

PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter

238

16 Feb 2024

Recovering the Pre-Fine-Tuning Weights of Generative Models

Eliahu Horwitz

Jonathan Kahana

Yedid Hoshen

260

15 Feb 2024

Social Reward: Evaluating and Enhancing Generative AI through Million-User Feedback from an Online Creative Community

232

15 Feb 2024

DoRA: Weight-Decomposed Low-Rank Adaptation

774

676

14 Feb 2024

OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM

Yu Qiao

Ping Luo

ELM LM&MA

331

135

14 Feb 2024

Visually Dehallucinative Instruction Generation

13 Feb 2024

A Benchmark for Multi-modal Foundation Models on Low-level Vision: from Single Images to PairsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

Zicheng Zhang

Haoning Wu

Erli Zhang

Guangtao Zhai

Weisi Lin

VLM

166

11 Feb 2024