DenseCap: Fully Convolutional Localization Networks for Dense Captioning

24 November 2015

Li Fei-Fei

Papers citing "DenseCap: Fully Convolutional Localization Networks for Dense Captioning"

50 / 468 papers shown

Chunking Strategies for Multimodal AI Systems

Shashanka B R

Mohith Charan R

Seema Banu F

28 Nov 2025

Generating Accurate and Detailed Captions for High-Resolution Images

217

31 Oct 2025

Top-Down Semantic Refinement for Image Captioning

286

25 Oct 2025

HouseTour: A Virtual Real Estate A(I)gent

221

20 Oct 2025

MaskCaptioner: Learning to Jointly Segment and Caption Object Trajectories in Videos

446

16 Oct 2025

Image-to-Video Transfer Learning based on Image-Language Foundation Models: A Comprehensive Survey

141

12 Oct 2025

One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework

162

03 Oct 2025

SPECS: Specificity-Enhanced CLIP-Score for Long Image Caption Evaluation

Xiaofu Chen

Israfel Salazar

Yova Kementchedjhieva

200

04 Sep 2025

VoCap: Video Object Captioning and Segmentation from Any Prompt

260

29 Aug 2025

Can Mental Imagery Improve the Thinking Capabilities of AI Systems?

Slimane Larabi

LRM

174

16 Jul 2025

SingaKids: A Multilingual Multimodal Dialogic Tutor for Language Learning

...

195

03 Jun 2025

Document-Level Text Generation with Minimum Bayes Risk Decoding using Optimal TransportAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Yuu Jinnai

175

29 May 2025

Panoptic Captioning: An Equivalence Bridge for Image and Text

679

22 May 2025

Describe Anything in Medical Images

...

558

09 May 2025

Survey of Abstract Meaning Representation: Then, Now, Future

Behrooz Mansouri

3DV

920

06 May 2025

Using Vision Language Models for Safety Hazard Identification in Construction

305

12 Apr 2025

URECA: Unique Region Caption Anything

284

07 Apr 2025

ExCap3D: Expressive 3D Scene Understanding via Object Captioning with Varying Detail

Chandan Yeshwanth

Dávid Rozenberszki

Angela Dai

288

21 Mar 2025

RTGen: Real-Time Generative Detection Transformer

408

28 Feb 2025

Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning

367

21 Feb 2025

Benchmarking Large and Small MLLMs

131

04 Jan 2025

PunchBench: Benchmarking MLLMs in Multimodal Punchline ComprehensionAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

379

16 Dec 2024

Detailed Object Description with Controllable DimensionsIEEE transactions on multimedia (IEEE TMM), 2024

341

28 Nov 2024

CapHDR2IR: Caption-Driven Transfer from Visible Light to Infrared Domain

Jingchao Peng

Thomas Bashford-Rogers

226

25 Nov 2024

FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any GranularityComputer Vision and Pattern Recognition (CVPR), 2024

328

23 Nov 2024

ComiCap: A VLMs pipeline for dense captioning of Comic Panels

Emanuele Vivoli

Niccoló Biondi

Marco Bertini

Dimosthenis Karatzas

201

24 Sep 2024

TheraGen: Therapy for Every Generation

161

12 Sep 2024

Question-Answering Dense Video EventsAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2024

553

06 Sep 2024

TRRG: Towards Truthful Radiology Report Generation With Cross-modal Disease Clue Enhanced Large Language Model

Yawen Cui

190

22 Aug 2024

ProgramAlly: Creating Custom Visual Access Programs via Multi-Modal End-User ProgrammingACM Symposium on User Interface Software and Technology (UIST), 2024

120

20 Aug 2024

Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis

416

09 Aug 2024

COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language BenchmarkEuropean Conference on Computer Vision (ECCV), 2024

267

05 Aug 2024

Can Textual Semantics Mitigate Sounding Object Segmentation Preference?

312

15 Jul 2024

Emergent Visual-Semantic Hierarchies in Image-Text Representations

Morris Alper

Hadar Averbuch-Elor

VLM

398

11 Jul 2024

Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness

Jae Sung Park

Yejin Choi

321

02 Jul 2024

Details Make a Difference: Object State-Sensitive Neurorobotic Task PlanningInternational Conference on Artificial Neural Networks (ICANN), 2024

Stefan Wermter

217

14 Jun 2024

Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions

Jipeng Zhang

198

11 Jun 2024

DynRefer: Delving into Region-level Multimodal Tasks via Dynamic Resolution

203

25 May 2024

LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation?

256

16 Apr 2024

DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection

Lewei Yao

Renjie Pi

Jianhua Han

Xiaodan Liang

Hang Xu

Wei Zhang

Zhenguo Li

Dan Xu

VLM ObjD

292

14 Apr 2024

LocCa: Visual Pretraining with Location-aware Captioners

Ibrahim Alabdulmohsin

360

28 Mar 2024

Entity6K: A Large Open-Domain Evaluation Dataset for Real-World Entity Recognition

241

19 Mar 2024

Generative Region-Language Pretraining for Open-Ended Object DetectionComputer Vision and Pattern Recognition (CVPR), 2024

Jianfei Cai

222

15 Mar 2024

TutoAI: A Cross-domain Framework for AI-assisted Mixed-media Tutorial Creation on Physical TasksInternational Conference on Human Factors in Computing Systems (CHI), 2024

226

12 Mar 2024

A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes

216

12 Mar 2024

AICAttack: Adversarial Image Captioning Attack with Attention-Based Optimization

Wei Liu

186

19 Feb 2024

FuseMoE: Mixture-of-Experts Transformers for Fleximodal Fusion

Huy Nguyen

384

05 Feb 2024

ControlCap: Controllable Region-level Captioning

416

31 Jan 2024

Towards Unified Interactive Visual Grounding in The Wild

278

30 Jan 2024

Enhancing Multimodal Understanding with CLIP-Based Image-to-Text Transformation

143

02 Jan 2024