v1v2v3v4 (latest)

Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models

19 May 2015

Bryan A. Plummer

Liwei Wang

Christopher M. Cervantes

Papers citing "Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models"

50 / 1,326 papers shown

One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework

223

30 Mar 2026

Technical Report on Text Dataset Distillation

Keith Ando Ogawa

Bruno Yamamoto

Lucas Lauton de Alcantara

Victor Zacarias

Edson Bollis

Lucas Pellicer

Rosimeire Pereira Costa

A. H. R. Costa

Artur Jordao

331

03 Dec 2025

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality Gap Correction

157

03 Dec 2025

Making Dialogue Grounding Data Rich: A Three-Tier Data Synthesis Framework for Generalized Referring Expression Comprehension

206

02 Dec 2025

SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioningAAAI Conference on Artificial Intelligence (AAAI), 2025

185

01 Dec 2025

Hierarchical Semantic Alignment for Image Clustering

113

30 Nov 2025

Diff-ICMH: Harmonizing Machine and Human Vision in Image Compression with Generative Prior

152

27 Nov 2025

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

179

25 Nov 2025

Harmonious Parameter Adaptation in Continual Visual Instruction Tuning for Safety-Aligned MLLMs

245

25 Nov 2025

Online-PVLM: Advancing Personalized VLMs with Online Concept Learning

136

25 Nov 2025

VisReason: A Large-Scale Dataset for Visual Chain-of-Thought Reasoning

100

21 Nov 2025

VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference

455

20 Nov 2025

PairHuman: A High-Fidelity Photographic Dataset for Customized Dual-Person GenerationInformation Fusion (Inf. Fusion), 2025

336

20 Nov 2025

Multimodal Continual Instruction Tuning with Dynamic Gradient Guidance

398

19 Nov 2025

CreBench: Human-Aligned Creativity Evaluation from Idea to Process to Product

...

192

17 Nov 2025

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

216

17 Nov 2025

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

...

741

16 Nov 2025

An Efficient Training Pipeline for Reasoning Graphical User Interface Agents

Georgios Pantazopoulos

Eda B. Özyiğit

LRM

441

11 Nov 2025

Surprisal reveals diversity gaps in image captioning and different scorers change the story

N. Ilinykh

Simon Dobnik

129

06 Nov 2025

Explore More, Learn Better: Parallel MLLM Embeddings under Mutual Information Minimization

266

03 Nov 2025

Enhancing Adversarial Transferability in Visual-Language Pre-training Models via Local Shuffle and Sample-based AttackNorth American Chapter of the Association for Computational Linguistics (NAACL), 2025

Xin Liu

Aoyang Zhou

AAML

154

02 Nov 2025

From Evidence to Verdict: An Agent-Based Forensic Framework for AI-Generated Image Detection

249

31 Oct 2025

Masked Diffusion Captioning for Visual Feature Learning

345

30 Oct 2025

Distilling Multilingual Vision-Language Models: When Smaller Models Stay Multilingual

Sukrit Sriratanawilai

Jhayahgrit Thongwat

Romrawin Chumpu

Patomporn Payoungkhamdee

Sarana Nutanong

Peerat Limkonchotiwat

VLM

200

30 Oct 2025

Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation

163

29 Oct 2025

DualCap: Enhancing Lightweight Image Captioning via Dual Retrieval with Similar Scenes Visual Prompts

384

28 Oct 2025

T-REGS: Minimum Spanning Tree Regularization for Self-Supervised Learning

249

27 Oct 2025

Why LVLMs Are More Prone to Hallucinations in Longer Responses: The Role of Context

142

23 Oct 2025

StableSketcher: Enhancing Diffusion Model for Pixel-based Sketch Generation via Visual Question Answering Feedback

167

23 Oct 2025

CovMatch: Cross-Covariance Guided Multimodal Dataset Distillation with Trainable Text Encoder

Yongmin Lee

Hye Won Chung

203

21 Oct 2025

ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder

311

21 Oct 2025

Foundation and Large-Scale AI Models in Neuroscience: A Comprehensive Review

222

18 Oct 2025

Theoretical Refinement of CLIP by Utilizing Linear Structure of Optimal Similarity

147

17 Oct 2025

Spatial Preference Rewarding for MLLMs Spatial Understanding

194

16 Oct 2025

MaskCaptioner: Learning to Jointly Segment and Caption Object Trajectories in Videos

502

16 Oct 2025

What "Not" to Detect: Negation-Aware VLMs via Structured Reasoning and Token Merging

146

15 Oct 2025

Improving Visual Recommendation on E-commerce Platforms Using Vision-Language ModelsACM Conference on Recommender Systems (RecSys), 2025

104

15 Oct 2025

UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

295

15 Oct 2025

Template-Based Text-to-Image Alignment for Language Accessibility: A Study on Visualizing Text Simplifications

Belkiss Souayed

Sarah Ebling

Yingqiang Gao

128

13 Oct 2025

Image-to-Video Transfer Learning based on Image-Language Foundation Models: A Comprehensive Survey

250

12 Oct 2025

Synthetic Object Compositions for Scalable and Accurate Learning in Detection, Segmentation, and Grounding

291

10 Oct 2025

$PHyCLIP: $\ell_1$-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning$

PHyCLIP:

\ell_1

-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

Daiki Yoshikawa

Takashi Matsubara

CoGe

237

10 Oct 2025

Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking

Mitchell Keren Taraday

Shahaf Wagner

Chaim Baskin

VLM

174

08 Oct 2025

Think Then Embed: Generative Context Improves Multimodal Embedding

...

452

06 Oct 2025

Person-Centric Annotations of LAION-400M: Auditing Bias and Its Transfer to Models

253

04 Oct 2025

Referring Expression Comprehension for Small Objects

209

04 Oct 2025

CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning

268

03 Oct 2025

Are Large Vision-Language Models Ready to Guide Blind and Low-Vision Individuals?

James Thorne

Hyunjung Shim

ELM

170

01 Oct 2025

ModernVBERT: Towards Smaller Visual Document Retrievers

392

01 Oct 2025

Point-It-Out: Benchmarking Embodied Reasoning for Vision Language Models in Multi-Stage Visual Grounding

193

30 Sep 2025