v1v2 (latest)

CIDEr: Consensus-based Image Description Evaluation

Computer Vision and Pattern Recognition (CVPR), 2014

20 November 2014

Ramakrishna Vedantam

C. L. Zitnick

Devi Parikh

ArXiv (abs)PDF HTML

Papers citing "CIDEr: Consensus-based Image Description Evaluation"

50 / 2,353 papers shown

VLM-Assisted Continual learning for Visual Question Answering in Self-Driving

291

02 Feb 2025

Mobile Manipulation Instruction Generation from Multiple Images with Automatic Metric EnhancementIEEE Robotics and Automation Letters (IEEE RA-L), 2025

420

28 Jan 2025

An Ensemble Model with Attention Based Mechanism for Image CaptioningComputers & electrical engineering (Comput. Electr. Eng.), 2025

Israa Al Badarneh

Bassam Hammo

Omar Al-Kadi

369

28 Jan 2025

Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position EncodingAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

365

19 Jan 2025

DriveLM: Driving with Graph Visual Question AnsweringEuropean Conference on Computer Vision (ECCV), 2023

Chonghao Sima

Katrin Renz

Kashyap Chitta

Lawrence Yunliang Chen

802

355

17 Jan 2025

3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene UnderstandingIEEE transactions on multimedia (TMM), 2025

238

14 Jan 2025

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token MarksComputer Vision and Pattern Recognition (CVPR), 2025

Subhashree Radhakrishnan

529

14 Jan 2025

VidChain: Chain-of-Tasks with Metric-based Direct Preference Optimization for Dense Video CaptioningAAAI Conference on Artificial Intelligence (AAAI), 2025

135

12 Jan 2025

Efficient Architectures for High Resolution Vision-Language ModelsInternational Conference on Computational Linguistics (COLING), 2025

Miguel Carvalho

Bruno Martins

MLLM VLM

199

05 Jan 2025

Classifier-Guided Captioning Across ModalitiesIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

223

03 Jan 2025

Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image CaptioningEuropean Conference on Computer Vision (ECCV), 2024

287

03 Jan 2025

Hierarchical Banzhaf Interaction for General Video-Language Representation LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

395

31 Dec 2024

A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in MedicineInformation Fusion (Inf. Fusion), 2024

449

31 Dec 2024

Multi-Agent Planning Using Visual Language ModelsEuropean Conference on Artificial Intelligence (ECAI), 2024

265

31 Dec 2024

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLMComputer Vision and Pattern Recognition (CVPR), 2024

...

422

31 Dec 2024

From Hallucinations to Facts: Enhancing Language Models with Curated Knowledge Graphs

228

24 Dec 2024

SCBench: A Sports Commentary Benchmark for Video LLMs

Kuangzhi Ge

Lawrence Yunliang Chen

230

23 Dec 2024

Where am I? Cross-View Geo-localization with Natural Language Descriptions

500

22 Dec 2024

A High-Quality Text-Rich Image Instruction Tuning Dataset via Hybrid Instruction GenerationInternational Conference on Computational Linguistics (COLING), 2024

282

20 Dec 2024

G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4oAAAI Conference on Artificial Intelligence (AAAI), 2024

276

18 Dec 2024

Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-CaptioningAAAI Conference on Artificial Intelligence (AAAI), 2024

298

18 Dec 2024

Exploring Temporal Event Cues for Dense Video Captioning in Cyclic Co-learningAAAI Conference on Artificial Intelligence (AAAI), 2024

406

16 Dec 2024

Learning to Merge Tokens via Decoupled Embedding for Efficient Vision TransformersNeural Information Processing Systems (NeurIPS), 2024

Dong Hoon Lee

Seunghoon Hong

232

13 Dec 2024

Automated Image Captioning with CNNs and Transformers

Joshua Adrian Cahyono

Jeremy Nathan Jusuf

VLM ViT

120

13 Dec 2024

NowYouSee Me: Context-Aware Automatic Audio DescriptionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

326

13 Dec 2024

Neptune: The Long Orbit to Benchmarking Long Video Understanding

...

445

12 Dec 2024

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

...

287

12 Dec 2024

TimeRefine: Temporal Grounding with Time Refining Video LLM

490

12 Dec 2024

CoMA: Compositional Human Motion Generation with Multi-modal Agents

427

10 Dec 2024

Learning to Correction: Explainable Feedback Generation for Visual Commonsense Reasoning DistractorACM Multimedia (MM), 2024

323

08 Dec 2024

Who Brings the Frisbee: Probing Hidden Hallucination Factors in Large Vision-Language Model via Causality AnalysisIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

297

04 Dec 2024

Video LLMs for Temporal Reasoning in Long Videos

658

04 Dec 2024

DIR: Retrieval-Augmented Image Captioning with Comprehensive Understanding

305

02 Dec 2024

OmniFlow: Any-to-Any Generation with Multi-Modal Rectified FlowsComputer Vision and Pattern Recognition (CVPR), 2024

Shufan Li

Konstantinos Kallidromitis

451

02 Dec 2024

LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual PreferencesComputer Vision and Pattern Recognition (CVPR), 2024

432

02 Dec 2024

DOGR: Towards Versatile Visual Document Grounding and Referring

553

26 Nov 2024

Diagram-Driven Course Questions Generation

429

26 Nov 2024

TechCoach: Towards Technical-Point-Aware Descriptive Action Coaching

542

26 Nov 2024

VideoOrion: Tokenizing Object Dynamics in Videos

Sipeng Zheng

Zongqing Lu

406

25 Nov 2024

IterIS: Iterative Inference-Solving Alignment for LoRA MergingComputer Vision and Pattern Recognition (CVPR), 2024

432

21 Nov 2024

LaVida Drive: Vision-Text Interaction VLM for Autonomous Driving with Token Selection, Recovery and Enhancement

470

20 Nov 2024

The Power of Many: Multi-Agent Multimodal Models for Cultural Image CaptioningNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

321

18 Nov 2024

SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference OptimizationComputer Vision and Pattern Recognition (CVPR), 2024

392

17 Nov 2024

Unstructured Text Enhanced Open-domain Dialogue System: A Systematic Survey

349

14 Nov 2024

Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Instructional VideosComputer Vision and Pattern Recognition (CVPR), 2024

424

13 Nov 2024

Grounded Video Caption Generation

Evangelos Kazakos

Cordelia Schmid

Josef Sivic

270

12 Nov 2024

Multi-Modal interpretable automatic video captioning

Antoine Hanna-Asaad

Decky Aspandi

Titus Zaharia

255

11 Nov 2024

StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification

782

11 Nov 2024

EVQAScore: A Fine-grained Metric for Video Question Answering Data Quality Evaluation

Hao Liang

Zirong Chen

Feiyu Xiong

Wentao Zhang

312

11 Nov 2024

ViTOC: Vision Transformer and Object-aware Captioner

Feiyang Huang

391

09 Nov 2024