Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
1411.5726
Cited By

CIDEr: Consensus-based Image Description Evaluation

v1v2 (latest)

CIDEr: Consensus-based Image Description Evaluation

Computer Vision and Pattern Recognition (CVPR), 2014

20 November 2014

Ramakrishna Vedantam

Devi Parikh

ArXiv (abs)PDF HTML

Papers citing "CIDEr: Consensus-based Image Description Evaluation"

50 / 2,353 papers shown

Masking Matters: Unlocking the Spatial Reasoning Capabilities of LLMs for 3D Scene-Language Understanding

Masking Matters: Unlocking the Spatial Reasoning Capabilities of LLMs for 3D Scene-Language Understanding

84

0

0

02 Dec 2025

OpenREAD: Reinforced Open-Ended Reasoning for End-to-End Autonomous Driving with LLM-as-Critic

OpenREAD: Reinforced Open-Ended Reasoning for End-to-End Autonomous Driving with LLM-as-Critic

Chua Jiahao Collister

195

2

0

01 Dec 2025

HMR3D: Hierarchical Multimodal Representation for 3D Scene Understanding with Large Vision-Language Model

HMR3D: Hierarchical Multimodal Representation for 3D Scene Understanding with Large Vision-Language Model

Basura Fernando

146

0

0

28 Nov 2025

Leveraging Textual Compositional Reasoning for Robust Change Captioning

Leveraging Textual Compositional Reasoning for Robust Change Captioning

110

0

0

28 Nov 2025

BUSTR: Breast Ultrasound Text Reporting with a Descriptor-Aware Vision-Language Model

BUSTR: Breast Ultrasound Text Reporting with a Descriptor-Aware Vision-Language Model

193

0

0

26 Nov 2025

Scenes as Tokens: Multi-Scale Normal Distributions Transform Tokenizer for General 3D Vision-Language Understanding

Scenes as Tokens: Multi-Scale Normal Distributions Transform Tokenizer for General 3D Vision-Language Understanding

Cheng-Fang Peng

137

0

0

26 Nov 2025

Knowledge Completes the Vision: A Multimodal Entity-aware Retrieval-Augmented Generation Framework for News Image Captioning

Knowledge Completes the Vision: A Multimodal Entity-aware Retrieval-Augmented Generation Framework for News Image Captioning

504

0

0

26 Nov 2025

Scaling Foundation Models for Radar Scene Understanding

Scaling Foundation Models for Radar Scene Understanding

Dinesh Bharadia

237

0

0

26 Nov 2025

CaptionQA: Is Your Caption as Useful as the Image Itself?

CaptionQA: Is Your Caption as Useful as the Image Itself?

201

0

0

26 Nov 2025

CoC-VLA: Delving into Adversarial Domain Transfer for Explainable Autonomous Driving via Chain-of-Causality Visual-Language-Action Model

CoC-VLA: Delving into Adversarial Domain Transfer for Explainable Autonomous Driving via Chain-of-Causality Visual-Language-Action Model

188

0

0

25 Nov 2025

LAST: LeArning to Think in Space and Time for Generalist Vision-Language Models

LAST: LeArning to Think in Space and Time for Generalist Vision-Language Models

142

1

0

24 Nov 2025

RoadSceneVQA: Benchmarking Visual Question Answering in Roadside Perception Systems for Intelligent Transportation System

RoadSceneVQA: Benchmarking Visual Question Answering in Roadside Perception Systems for Intelligent Transportation System

...

130

0

0

23 Nov 2025

OmniPT: Unleashing the Potential of Large Vision Language Models for Pedestrian Tracking and Understanding

OmniPT: Unleashing the Potential of Large Vision Language Models for Pedestrian Tracking and Understanding

84

0

0

21 Nov 2025

Music Recommendation with Large Language Models: Challenges, Opportunities, and Evaluation

Manuel Moussallam

142

0

0

20 Nov 2025

Zero-Training Task-Specific Model Synthesis for Few-Shot Medical Image Classification

Zero-Training Task-Specific Model Synthesis for Few-Shot Medical Image Classification

135

0

0

18 Nov 2025

MedGEN-Bench: Contextually entangled benchmark for open-ended multimodal medical generation

MedGEN-Bench: Contextually entangled benchmark for open-ended multimodal medical generation

...

MedIm LM&MA VLM

476

0

0

17 Nov 2025

A Disease-Aware Dual-Stage Framework for Chest X-ray Report Generation

A Disease-Aware Dual-Stage Framework for Chest X-ray Report Generation

132

0

0

15 Nov 2025

Spatial Reasoning in Multimodal Large Language Models: A Survey of Tasks, Benchmarks and Methods

114

1

0

14 Nov 2025

Large Sign Language Models: Toward 3D American Sign Language Translation

Large Sign Language Models: Toward 3D American Sign Language Translation

Dimitris N. Metaxas

Mubbasir Kapadia

304

1

0

11 Nov 2025

Remodeling Semantic Relationships in Vision-Language Fine-Tuning

Remodeling Semantic Relationships in Vision-Language Fine-Tuning

115

0

0

11 Nov 2025

VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models

VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models

175

0

0

10 Nov 2025

Dense Motion Captioning

Dense Motion Captioning

Benedetta Liberatori

143

0

0

07 Nov 2025

ChiMDQA: Towards Comprehensive Chinese Document QA with Fine-grained Evaluation

ChiMDQA: Towards Comprehensive Chinese Document QA with Fine-grained EvaluationInternational Conference on Artificial Neural Networks (ICANN), 2025

111

0

0

05 Nov 2025

Dynamic Routing Between Experts: A Data-Efficient Approach to Continual Learning in Vision-Language Models

Dynamic Routing Between Experts: A Data-Efficient Approach to Continual Learning in Vision-Language Models

Dimitrios Dimitriadis

311

0

0

03 Nov 2025

A Unified Reasoning Framework for Holistic Zero-Shot Video Anomaly Analysis

A Unified Reasoning Framework for Holistic Zero-Shot Video Anomaly Analysis

142

0

0

02 Nov 2025

Enhancing Adversarial Transferability in Visual-Language Pre-training Models via Local Shuffle and Sample-based Attack

Enhancing Adversarial Transferability in Visual-Language Pre-training Models via Local Shuffle and Sample-based AttackNorth American Chapter of the Association for Computational Linguistics (NAACL), 2025

117

0

0

02 Nov 2025

Foundation Models for Trajectory Planning in Autonomous Driving: A Review of Progress and Open Challenges

Alexandru Buburuzan

Anthony Knittel

81

0

0

31 Oct 2025

PETAR: Localized Findings Generation with Mask-Aware Vision-Language Modeling for PET Automated Reporting

PETAR: Localized Findings Generation with Mask-Aware Vision-Language Modeling for PET Automated Reporting

Zachary Huemann

Matthew E. Larson

...

451

0

0

31 Oct 2025

Masked Diffusion Captioning for Visual Feature Learning

Masked Diffusion Captioning for Visual Feature Learning

248

0

0

30 Oct 2025

Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail

Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail

...

140

12

0

30 Oct 2025

More than a Moment: Towards Coherent Sequences of Audio Descriptions

More than a Moment: Towards Coherent Sequences of Audio Descriptions

Eshika Khandelwal

Andrew Zisserman

Makarand Tapaswi

105

0

0

29 Oct 2025

DualCap: Enhancing Lightweight Image Captioning via Dual Retrieval with Similar Scenes Visual Prompts

DualCap: Enhancing Lightweight Image Captioning via Dual Retrieval with Similar Scenes Visual Prompts

330

0

0

28 Oct 2025

Listening without Looking: Modality Bias in Audio-Visual Captioning

Listening without Looking: Modality Bias in Audio-Visual Captioning

Toranosuke Manabe

Tatsuya Komatsu

80

0

0

28 Oct 2025

What do vision-language models see in the context? Investigating multimodal in-context learning

What do vision-language models see in the context? Investigating multimodal in-context learning

G. O. D. Santos

Esther Colombini

102

0

0

28 Oct 2025

VC4VG: Optimizing Video Captions for Text-to-Video Generation

VC4VG: Optimizing Video Captions for Text-to-Video Generation

103

0

0

28 Oct 2025

DynaStride: Dynamic Stride Windowing with MMCoT for Instructional Multi-Scene Captioning

DynaStride: Dynamic Stride Windowing with MMCoT for Instructional Multi-Scene Captioning

Prisha Priyadarshini

Adrian Maliackel

149

0

0

27 Oct 2025

PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity

PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity

362

1

0

27 Oct 2025

MedXplain-VQA: Multi-Component Explainable Medical Visual Question Answering

MedXplain-VQA: Multi-Component Explainable Medical Visual Question Answering

Hai-Dang Nguyen

98

1

0

26 Oct 2025

Head Pursuit: Probing Attention Specialization in Multimodal Transformers

Head Pursuit: Probing Attention Specialization in Multimodal Transformers

Valentino Maiorca

Francesco Locatello

Alberto Cazzaniga

118

2

0

24 Oct 2025

Towards Fine-Grained Human Motion Video Captioning

Towards Fine-Grained Human Motion Video Captioning

88

0

0

24 Oct 2025

Vision-Based Mistake Analysis in Procedural Activities: A Review of Advances and Challenges

Vision-Based Mistake Analysis in Procedural Activities: A Review of Advances and Challenges

Konstantinos Bacharidis

Antonis A. Argyros

168

0

0

22 Oct 2025

Chain-of-Conceptual-Thought Elicits Daily Conversation in Large Language Models

Chain-of-Conceptual-Thought Elicits Daily Conversation in Large Language Models

270

0

0

21 Oct 2025

MoTVLA: A Vision-Language-Action Model with Unified Fast-Slow Reasoning

MoTVLA: A Vision-Language-Action Model with Unified Fast-Slow Reasoning

354

1

0

21 Oct 2025

PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

Amith Ananthram

Elias Stengel-Eskin

Lorena A. Bradford

Rina Elster Pantalony

Kathleen McKeown

96

0

0

21 Oct 2025

HouseTour: A Virtual Real Estate A(I)gent

HouseTour: A Virtual Real Estate A(I)gent

223

2

0

20 Oct 2025

EMRRG: Efficient Fine-Tuning Pre-trained X-ray Mamba Networks for Radiology Report Generation

EMRRG: Efficient Fine-Tuning Pre-trained X-ray Mamba Networks for Radiology Report Generation

Mingzheng Zhang

180

0

0

19 Oct 2025

How Universal Are SAM2 Features?

How Universal Are SAM2 Features?

Masoud Khairi Atani

132

0

0

19 Oct 2025

EDVD-LLaMA: Explainable Deepfake Video Detection via Multimodal Large Language Model Reasoning

EDVD-LLaMA: Explainable Deepfake Video Detection via Multimodal Large Language Model Reasoning

122

0

0

18 Oct 2025

SpeechLLM-as-Judges: Towards General and Interpretable Speech Quality Evaluation

SpeechLLM-as-Judges: Towards General and Interpretable Speech Quality Evaluation

...

214

2

0

16 Oct 2025

Shot2Tactic-Caption: Multi-Scale Captioning of Badminton Videos for Tactical Understanding

Shot2Tactic-Caption: Multi-Scale Captioning of Badminton Videos for Tactical Understanding

107

0

0

16 Oct 2025

1 2 3 4...46 47 48