v1v2v3v4 (latest)

Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models

19 May 2015

Bryan A. Plummer

Liwei Wang

Christopher M. Cervantes

Papers citing "Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models"

50 / 1,325 papers shown

OS-W2S: An Automatic Labeling Engine for Language-Guided Open-Set Aerial Object Detection

336

06 May 2025

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

...

1.1K

05 May 2025

Compositional Image-Text Matching and Retrieval by Grounding Entities

Madhukar Reddy Vongala

Saurabh Srivastava

Jana Kosecka

CLIP CoGe VLM

217

04 May 2025

Diff-Prompt: Diffusion-Driven Prompt Generator with Mask SupervisionInternational Conference on Learning Representations (ICLR), 2025

660

30 Apr 2025

AGATE: Stealthy Black-box Watermarking for Multimodal Model Copyright Protection

263

28 Apr 2025

What's Pulling the Strings? Evaluating Integrity and Attribution in AI Training and Inference through Concept Shift

319

28 Apr 2025

Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization

423

25 Apr 2025

Decoupled Global-Local Alignment for Improving Compositional Understanding

701

23 Apr 2025

Progressive Language-guided Visual Learning for Multi-Task Visual Grounding

367

22 Apr 2025

Generative Multimodal Pretraining with Discrete Diffusion Timestep TokensComputer Vision and Pattern Recognition (CVPR), 2025

315

20 Apr 2025

POET: Supporting Prompting Creativity and Personalization with Automated Expansion of Text-to-Image GenerationACM Symposium on User Interface Software and Technology (UIST), 2025

408

18 Apr 2025

Perception Encoder: The best visual embeddings are not at the output of the network

Daniel Bolya

Po-Yao (Bernie) Huang

...

Christoph Feichtenhofer

ObjD VOS

664

107

17 Apr 2025

PATFinger: Prompt-Adapted Transferable Fingerprinting against Unauthorized Multimodal Dataset UsageAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2025

277

15 Apr 2025

UP-Person: Unified Parameter-Efficient Transfer Learning for Text-based Person Retrieval

275

14 Apr 2025

COUNTS: Benchmarking Object Detectors and Multimodal Large Language Models under Distribution ShiftsComputer Vision and Pattern Recognition (CVPR), 2025

293

14 Apr 2025

ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness

374

10 Apr 2025

Towards Visual Text Grounding of Multimodal Large Language Model

435

07 Apr 2025

URECA: Unique Region Caption Anything

284

07 Apr 2025

AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models with Preference Optimization

339

02 Apr 2025

ORAL: Prompting Your Large-Scale LoRAs via Conditional Recurrent Diffusion

Rana Muhammad Shahroz Khan

1.1K

31 Mar 2025

Unicorn: Text-Only Data Synthesis for Vision Language Model Training

240

28 Mar 2025

MAVERIX: Multimodal Audio-Visual Evaluation and Recognition IndeX

...

313

27 Mar 2025

Faster Parameter-Efficient Tuning with Token Redundancy ReductionComputer Vision and Pattern Recognition (CVPR), 2025

470

26 Mar 2025

Unified Multimodal Discrete Diffusion

331

26 Mar 2025

VisualQuest: A Benchmark for Abstract Visual Reasoning in MLLMs

367

25 Mar 2025

Aligning Information Capacity Between Vision and Language via Dense-to-Sparse Feature Distillation for Image-Text Matching

389

19 Mar 2025

TULIP: Towards Unified Language-Image Pretraining

435

19 Mar 2025

Text-Guided Image Invariant Feature Learning for Robust Image Watermarking

Muhammad Ahtesham

Xin Zhong

236

18 Mar 2025

Survey of Adversarial Robustness in Multimodal Large Language Models

331

18 Mar 2025

Federated Continual Instruction Tuning

519

17 Mar 2025

Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster InferenceComputer Vision and Pattern Recognition (CVPR), 2025

Hao Yin

Guangzong Si

Zilei Wang

225

17 Mar 2025

Aligning Vision to Language: Annotation-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning

365

17 Mar 2025

Grounded Chain-of-Thought for Multimodal Large Language Models

455

17 Mar 2025

HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language ModelAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

386

17 Mar 2025

Web Artifact Attacks Disrupt Vision Language Models

292

17 Mar 2025

Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework

Miguel R. D. Rodrigues

LRM

263

11 Mar 2025

Referring to Any Person

932

11 Mar 2025

Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models

314

11 Mar 2025

Asymmetric Visual Semantic Embedding Framework for Efficient Vision-Language AlignmentAAAI Conference on Artificial Intelligence (AAAI), 2025

251

10 Mar 2025

VisRL: Intention-Driven Visual Perception via Reinforced Reasoning

442

10 Mar 2025

REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding

207

10 Mar 2025

YOLOE: Real-Time Seeing Anything

542

10 Mar 2025

Evaluation of Safety Cognition Capability in Vision-Language Models for Autonomous Driving

329

09 Mar 2025

Semi-Supervised Audio-Visual Video Action Recognition with Audio Source Localization Guided Mixup

Seokun Kang

Taehwan Kim

271

04 Mar 2025

DivPrune: Diversity-based Visual Token Pruning for Large Multimodal ModelsComputer Vision and Pattern Recognition (CVPR), 2025

546

04 Mar 2025

Are Large Vision Language Models Good Game Players?International Conference on Learning Representations (ICLR), 2025

245

04 Mar 2025

Qilin: A Multimodal Information Retrieval Dataset with APP-level User SessionsAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2025

...

200

01 Mar 2025

ABC: Achieving Better Control of Multimodal Embeddings using VLMs

Benjamin Schneider

Florian Kerschbaum

Wenhu Chen

962

01 Mar 2025

RTGen: Real-Time Generative Detection Transformer

415

28 Feb 2025

Can Large Language Models Unveil the Mysteries? An Exploration of Their Ability to Unlock Information in Complex Scenarios

412

27 Feb 2025