v1v2v3v4 (latest)

Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models

19 May 2015

Bryan A. Plummer

Liwei Wang

Christopher M. Cervantes

Papers citing "Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models"

50 / 1,325 papers shown

Technical Report on Text Dataset Distillation

Keith Ando Ogawa

Bruno Yamamoto

Lucas Lauton de Alcantara

Victor Zacarias

Edson Bollis

Lucas Pellicer

Rosimeire Pereira Costa

A. H. R. Costa

Artur Jordao

284

03 Dec 2025

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality Gap Correction

115

03 Dec 2025

Making Dialogue Grounding Data Rich: A Three-Tier Data Synthesis Framework for Generalized Referring Expression Comprehension

148

02 Dec 2025

SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioningAAAI Conference on Artificial Intelligence (AAAI), 2025

136

01 Dec 2025

Hierarchical Semantic Alignment for Image Clustering

30 Nov 2025

Diff-ICMH: Harmonizing Machine and Human Vision in Image Compression with Generative Prior

117

27 Nov 2025

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

126

25 Nov 2025

Harmonious Parameter Adaptation in Continual Visual Instruction Tuning for Safety-Aligned MLLMs

209

25 Nov 2025

Online-PVLM: Advancing Personalized VLMs with Online Concept Learning

105

25 Nov 2025

VisReason: A Large-Scale Dataset for Visual Chain-of-Thought Reasoning

21 Nov 2025

VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference

323

20 Nov 2025

PairHuman: A High-Fidelity Photographic Dataset for Customized Dual-Person GenerationInformation Fusion (Inf. Fusion), 2025

265

20 Nov 2025

Multimodal Continual Instruction Tuning with Dynamic Gradient Guidance

332

19 Nov 2025

CreBench: Human-Aligned Creativity Evaluation from Idea to Process to Product

...

129

17 Nov 2025

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

167

17 Nov 2025

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

...

625

16 Nov 2025

An Efficient Training Pipeline for Reasoning Graphical User Interface Agents

Georgios Pantazopoulos

Eda B. Özyiğit

LRM

355

11 Nov 2025

Surprisal reveals diversity gaps in image captioning and different scorers change the story

N. Ilinykh

Simon Dobnik

06 Nov 2025

Explore More, Learn Better: Parallel MLLM Embeddings under Mutual Information Minimization

216

03 Nov 2025

Enhancing Adversarial Transferability in Visual-Language Pre-training Models via Local Shuffle and Sample-based AttackNorth American Chapter of the Association for Computational Linguistics (NAACL), 2025

Xin Liu

Aoyang Zhou

AAML

117

02 Nov 2025

From Evidence to Verdict: An Agent-Based Forensic Framework for AI-Generated Image Detection

193

31 Oct 2025

Masked Diffusion Captioning for Visual Feature Learning

266

30 Oct 2025

Distilling Multilingual Vision-Language Models: When Smaller Models Stay Multilingual

Sukrit Sriratanawilai

Jhayahgrit Thongwat

Romrawin Chumpu

Patomporn Payoungkhamdee

Sarana Nutanong

Peerat Limkonchotiwat

VLM

159

30 Oct 2025

Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation

138

29 Oct 2025

DualCap: Enhancing Lightweight Image Captioning via Dual Retrieval with Similar Scenes Visual Prompts

337

28 Oct 2025

T-REGS: Minimum Spanning Tree Regularization for Self-Supervised Learning

145

27 Oct 2025

Why LVLMs Are More Prone to Hallucinations in Longer Responses: The Role of Context

100

23 Oct 2025

StableSketcher: Enhancing Diffusion Model for Pixel-based Sketch Generation via Visual Question Answering Feedback

126

23 Oct 2025

CovMatch: Cross-Covariance Guided Multimodal Dataset Distillation with Trainable Text Encoder

Yongmin Lee

Hye Won Chung

149

21 Oct 2025

ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder

234

21 Oct 2025

Foundation and Large-Scale AI Models in Neuroscience: A Comprehensive Review

159

18 Oct 2025

Theoretical Refinement of CLIP by Utilizing Linear Structure of Optimal Similarity

133

17 Oct 2025

Spatial Preference Rewarding for MLLMs Spatial Understanding

147

16 Oct 2025

MaskCaptioner: Learning to Jointly Segment and Caption Object Trajectories in Videos

454

16 Oct 2025

Improving Visual Recommendation on E-commerce Platforms Using Vision-Language ModelsACM Conference on Recommender Systems (RecSys), 2025

15 Oct 2025

UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

212

15 Oct 2025

What "Not" to Detect: Negation-Aware VLMs via Structured Reasoning and Token Merging

106

15 Oct 2025

Template-Based Text-to-Image Alignment for Language Accessibility: A Study on Visualizing Text Simplifications

Belkiss Souayed

Sarah Ebling

Yingqiang Gao

13 Oct 2025

Image-to-Video Transfer Learning based on Image-Language Foundation Models: A Comprehensive Survey

151

12 Oct 2025

Synthetic Object Compositions for Scalable and Accurate Learning in Detection, Segmentation, and Grounding

226

10 Oct 2025

$PHyCLIP: $\ell_1$-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning$

PHyCLIP:

\ell_1

-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

Daiki Yoshikawa

Takashi Matsubara

CoGe

200

10 Oct 2025

Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking

Mitchell Keren Taraday

Shahaf Wagner

Chaim Baskin

VLM

121

08 Oct 2025

Think Then Embed: Generative Context Improves Multimodal Embedding

...

378

06 Oct 2025

Person-Centric Annotations of LAION-400M: Auditing Bias and Its Transfer to Models

205

04 Oct 2025

Referring Expression Comprehension for Small Objects

147

04 Oct 2025

One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework

179

03 Oct 2025

CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning

200

03 Oct 2025

Multi-Objective Task-Aware Predictor for Image-Text Alignment

137

01 Oct 2025

ModernVBERT: Towards Smaller Visual Document Retrievers

313

01 Oct 2025

Point-It-Out: Benchmarking Embodied Reasoning for Vision Language Models in Multi-Stage Visual Grounding

141

30 Sep 2025