SPICE: Semantic Propositional Image Caption Evaluation

29 July 2016

Papers citing "SPICE: Semantic Propositional Image Caption Evaluation"

50 / 1,002 papers shown

Cycle Consistency as Reward: Learning Image-Text Alignment without Human Preferences

425

02 Jun 2025

CLAP-ART: Automated Audio Captioning with Semantic-rich Audio Representation Tokenizer

189

01 Jun 2025

Light as Deception: GPT-driven Natural Relighting Against Vision-Language Pre-training Models

167

30 May 2025

VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation

285

29 May 2025

RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction

178

28 May 2025

DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving

345

27 May 2025

Co-Reinforcement Learning for Unified Multimodal Understanding and Generation

814

23 May 2025

Redemption Score: A Multi-Modal Evaluation Framework for Image Captioning via Distributional, Perceptual, and Linguistic Signal Triangulation

298

22 May 2025

Exploring The Visual Feature Space for Multimodal Neural Decoding

Weihao Xia

Steven Chacko

289

21 May 2025

Harnessing Caption Detailness for Data-Efficient Text-to-Image Generation

301

21 May 2025

Hearing from Silence: Reasoning Audio Descriptions from Silent Videos via Vision-Language Model

480

19 May 2025

DriveSOTIF: Advancing Perception SOTIF Through Multimodal Large Language Models

463

11 May 2025

ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding

618

09 May 2025

LISAT: Language-Instructed Segmentation Assistant for Satellite Imagery

287

05 May 2025

LecEval: An Automated Metric for Multimodal Knowledge Acquisition in Multimedia Learning

...

190

04 May 2025

Vision-Language Models Are Not Pragmatically Competent in Referring Expression Generation

506

22 Apr 2025

EarthGPT-X: A Spatial MLLM for Multi-level Multi-Source Remote Sensing Imagery Understanding with Visual PromptingIEEE Transactions on Geoscience and Remote Sensing (IEEE TGRS), 2025

409

17 Apr 2025

FocusedAD: Character-centric Movie Audio Description

376

16 Apr 2025

Generalized Visual Relation Detection with Diffusion Models

286

16 Apr 2025

Summarizing Speech: A Comprehensive Survey

467

10 Apr 2025

Impact of Language Guidance: A Reproducibility Study

423

10 Apr 2025

Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local PerceptionComputer Vision and Pattern Recognition (CVPR), 2025

209

09 Apr 2025

Group-based Distinctive Image Captioning with Memory Difference Encoding and AttentionInternational Journal of Computer Vision (IJCV), 2024

377

03 Apr 2025

PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks

345

01 Apr 2025

Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation

417

01 Apr 2025

Semantic-Spatial Feature Fusion with Dynamic Graph Refinement for Remote Sensing Image CaptioningIEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing (IEEE J-STARS), 2025

Maofu Liu

Jiahui Liu

Xiaokang Zhang

287

30 Mar 2025

Make Some Noise: Towards LLM audio reasoning and generation using sound tokensIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

Shivam Mehta

Nebojsa Jojic

Hannes Gamper

214

28 Mar 2025

Rethinking Vision-Language Model in Face Forensics: Multi-Modal Interpretable Forged Face DetectorComputer Vision and Pattern Recognition (CVPR), 2025

405

26 Mar 2025

Beyond Intermediate States: Explaining Visual Redundancy through Language

251

26 Mar 2025

ImageSet2Text: Describing Sets of Images through Text

503

25 Mar 2025

AutoDrive-QA: A Multiple-Choice Benchmark for Vision-Language Evaluation in Urban Autonomous Driving

Boshra Khalili

Andrew W.Smyth

ELM

372

20 Mar 2025

Universal Scene Graph GenerationComputer Vision and Pattern Recognition (CVPR), 2025

Shengqiong Wu

Hao Fei

Tat-Seng Chua

403

19 Mar 2025

EmpathyAgent: Can Embodied Agents Conduct Empathetic Actions?

276

19 Mar 2025

Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context

253

19 Mar 2025

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

441

18 Mar 2025

Disentangling Fine-Tuning from Pre-Training in Visual Captioning with Hybrid Markov LogicBigData Congress [Services Society] (BSS), 2024

327

18 Mar 2025

Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future PerspectivesInternational Joint Conference on Artificial Intelligence (IJCAI), 2024

Sara Sarto

Marcella Cornia

Rita Cucchiara

368

18 Mar 2025

CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM EraAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

321

16 Mar 2025

CLIP-Free, Label-Free, Zero-Shot Concept Bottleneck Models

229

14 Mar 2025

T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation

Seyed Mohammad Hadi Hosseini

236

14 Mar 2025

Image Quality Assessment: From Human to Machine PreferenceComputer Vision and Pattern Recognition (CVPR), 2025

...

192

13 Mar 2025

FlowTok: Flowing Seamlessly Across Text and Image Tokens

538

13 Mar 2025

SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action AlignmentComputer Vision and Pattern Recognition (CVPR), 2025

494

12 Mar 2025

ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews

376

11 Mar 2025

SuperCap: Multi-resolution Superpixel-based Image Captioning

289

11 Mar 2025

Mellow: a small audio language model for reasoning

296

11 Mar 2025

Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment LearningInternational Conference on Learning Representations (ICLR), 2025

271

10 Mar 2025

Optimal Transport for Brain-Image Alignment: Unveiling Redundancy and Synergy in Neural Information Processing

321

09 Mar 2025

Composed Multi-modal Retrieval: A Survey of Approaches and Applications

...

427

03 Mar 2025

Group Relative Policy Optimization for Image Captioning

Xu Liang

177

03 Mar 2025