v1v2 (latest)

CIDEr: Consensus-based Image Description Evaluation

Computer Vision and Pattern Recognition (CVPR), 2014

20 November 2014

Ramakrishna Vedantam

C. L. Zitnick

Devi Parikh

ArXiv (abs)PDF HTML

Papers citing "CIDEr: Consensus-based Image Description Evaluation"

50 / 2,353 papers shown

DiscoSG: Towards Discourse-Level Text Scene Graph Parsing through Iterative Graph Refinement

216

18 Jun 2025

Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following AbilityAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

241

18 Jun 2025

From Multimodal Perception to Strategic Reasoning: A Survey on AI-Generated Game Commentary

183

17 Jun 2025

An Empirical Study of LLM-as-a-Judge: How Design Choices Impact Evaluation Reliability

182

16 Jun 2025

Improving Medical Visual Representation Learning with Pathological-level Cross-Modal Alignment and Correlation Exploration

328

12 Jun 2025

ABS: Enforcing Constraint Satisfaction On Generated Sequences Via Automata-Guided Beam Search

249

11 Jun 2025

A Novel Lightweight Transformer with Edge-Aware Fusion for Remote Sensing Image Captioning

164

11 Jun 2025

Generating Vision-Language Navigation Instructions Incorporated Fine-Grained Alignment Annotations

175

10 Jun 2025

Unblocking Fine-Grained Evaluation of Detailed Captions: An Explaining AutoRater and Critic-and-Revise Pipeline

209

09 Jun 2025

LiteVLM: A Low-Latency Vision-Language Model Inference Pipeline for Resource-Constrained Environments

185

09 Jun 2025

FREE: Fast and Robust Vision Language Models with Early ExitsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Divya J. Bajpai

M. Hanawal

VLM

148

07 Jun 2025

ExAct: A Video-Language Benchmark for Expert Action Analysis

Oluwatumininu Oguntola

Gedas Bertasius

202

06 Jun 2025

AuthGuard: Generalizable Deepfake Detection via Language Guidance

199

04 Jun 2025

VidEvent: A Large Dataset for Understanding Dynamic Evolution of Events in VideosAAAI Conference on Artificial Intelligence (AAAI), 2025

238

03 Jun 2025

Attention-based transformer models for image captioning across languages: An in-depth survey and evaluationComputer Science Review (CSR), 2025

188

03 Jun 2025

Go Beyond Earth: Understanding Human Actions and Scenes in Microgravity Environments

...

427

03 Jun 2025

Cycle Consistency as Reward: Learning Image-Text Alignment without Human Preferences

414

02 Jun 2025

CLAP-ART: Automated Audio Captioning with Semantic-rich Audio Representation Tokenizer

189

01 Jun 2025

The Security Threat of Compressed Projectors in Large Vision-Language Models

148

31 May 2025

Navigating the Accuracy-Size Trade-Off with Flexible Model Merging

Akash Dhasade

Divyansh Jhunjhunwala

308

29 May 2025

VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation

283

29 May 2025

GETReason: Enhancing Image Context Extraction through Hierarchical Multi-Agent ReasoningAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

344

28 May 2025

RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction

178

28 May 2025

TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic VideosAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

295

26 May 2025

Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects

360

26 May 2025

MRGAgents: A Multi-Agent Framework for Improved Medical Report Generation with Med-LVLMs

141

24 May 2025

Scaling Up Biomedical Vision-Language Models: Fine-Tuning, Instruction Tuning, and Multi-Modal Learning

477

23 May 2025

Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM

896

23 May 2025

Grounding Chest X-Ray Visual Question Answering with Generated Radiology Reports

Francesco Dalla Serra

203

22 May 2025

Panoptic Captioning: An Equivalence Bridge for Image and Text

696

22 May 2025

Redemption Score: A Multi-Modal Evaluation Framework for Image Captioning via Distributional, Perceptual, and Linguistic Signal Triangulation

298

22 May 2025

ALN-P3: Unified Language Alignment for Perception, Prediction, and Planning in Autonomous Driving

256

21 May 2025

TACO: Enhancing Multimodal In-context Learning via Task Mapping-Guided Sequence Configuration

447

21 May 2025

DC-Scene: Data-Centric Learning for 3D Scene Understanding

248

21 May 2025

Exploring The Visual Feature Space for Multimodal Neural Decoding

Weihao Xia

Steven Chacko

276

21 May 2025

TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving

250

21 May 2025

Harnessing Caption Detailness for Data-Efficient Text-to-Image Generation

301

21 May 2025

Vision-Language Modeling Meets Remote Sensing: Models, Datasets and PerspectivesIEEE Geoscience and Remote Sensing Magazine (GRSM), 2025

360

20 May 2025

KERL: Knowledge-Enhanced Personalized Recipe Recommendation using Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Fnu Mohbat

Mohammed J Zaki

182

20 May 2025

TS-VLM: Text-Guided SoftSort Pooling for Vision-Language Models in Multi-View Driving Reasoning

329

19 May 2025

Hearing from Silence: Reasoning Audio Descriptions from Silent Videos via Vision-Language Model

476

19 May 2025

Content Generation Models in Computational Pathology: A Comprehensive Survey on Methods, Applications, and Challenges

469

16 May 2025

A Light and Smart Wearable Platform with Multimodal Foundation Model for Enhanced Spatial Reasoning in People with Blindness and Low Vision

255

16 May 2025

Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving

378

13 May 2025

Ultrasound Report Generation with Multimodal Large Language Models for Standardized Texts

...

240

13 May 2025

DriveSOTIF: Advancing Perception SOTIF Through Multimodal Large Language Models

463

11 May 2025

SToLa: Self-Adaptive Touch-Language Framework with Tactile Commonsense Reasoning in Open-Ended Scenarios

287

07 May 2025

LecEval: An Automated Metric for Multimodal Knowledge Acquisition in Multimedia Learning

...

190

04 May 2025

Multimodal Large Language Models for Medicine: A Comprehensive Survey

Jiarui Ye

Hao Tang

LM&MA

491

29 Apr 2025

VCM: Vision Concept Modeling Based on Implicit Contrastive Learning with Vision-Language Instruction Fine-Tuning

524

28 Apr 2025