SPICE: Semantic Propositional Image Caption Evaluation

29 July 2016

Papers citing "SPICE: Semantic Propositional Image Caption Evaluation"

50 / 1,002 papers shown

MetaMetrics: Calibrating Metrics For Generation Tasks Using Human PreferencesInternational Conference on Learning Representations (ICLR), 2024

559

03 Oct 2024

HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty DecodingConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

162

30 Sep 2024

Decoding the Echoes of Vision from fMRI: Memory Disentangling for Past Semantic InformationConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Runze Xia

Congchi Yin

Piji Li

225

30 Sep 2024

TROPE: TRaining-Free Object-Part Enhancement for Seamlessly Improving Fine-Grained Zero-Shot Image CaptioningConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Joshua Forster Feinglass

Yezhou Yang

198

30 Sep 2024

DENEB: A Hallucination-Robust Automatic Evaluation Metric for Image CaptioningAsian Conference on Computer Vision (ACCV), 2024

Kazuki Matsuda

Yuiga Wada

Komei Sugiura

275

28 Sep 2024

Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMsIEEE International Conference on Robotics and Automation (ICRA), 2024

Yuan Zhang

Qi Wu

343

27 Sep 2024

Evaluation of Large Language Models for Summarization Tasks in the Medical Domain: A Narrative Review

341

26 Sep 2024

Inferring Alt-text For UI Icons With Large Language Models During App Development

Sabrina Haque

Christoph Csallner

VLM

266

26 Sep 2024

IFCap: Image-like Retrieval and Frequency-based Entity Filtering for Zero-shot CaptioningConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

217

26 Sep 2024

Domain-Independent Automatic Generation of Descriptive Texts for Time-Series DataIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

167

25 Sep 2024

CLAIR-A: Leveraging Large Language Models to Judge Audio Captions

240

19 Sep 2024

KALE: An Artwork Image Captioning System Augmented with Heterogeneous GraphInternational Joint Conference on Artificial Intelligence (IJCAI), 2024

250

17 Sep 2024

Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models

419

16 Sep 2024

Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving

287

16 Sep 2024

Towards Diverse and Efficient Audio Captioning via Diffusion Models

264

14 Sep 2024

Spatially-Aware Speaker for Vision-and-Language Navigation Instruction GenerationAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Muraleekrishna Gopinathan

216

09 Sep 2024

No Detail Left Behind: Revisiting Self-Retrieval for Fine-Grained Image Captioning

Manu Gaur

Darshan Singh

Makarand Tapaswi

939

04 Sep 2024

Retrieval-Augmented Natural Language Reasoning for Explainable Visual Question Answering

200

30 Aug 2024

Pixels to Prose: Understanding the art of Image Captioning

Hrishikesh Singh

Aarti Sharma

Millie Pant

3DV VLM

227

28 Aug 2024

AeroVerse: UAV-Agent Benchmark Suite for Simulating, Pre-training, Finetuning, and Evaluating Aerospace Embodied World Models

182

28 Aug 2024

What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation

Dingyi Yang

Qin Jin

419

26 Aug 2024

Revisiting Image Captioning Training Paradigm via Direct CLIP-based OptimizationBritish Machine Vision Conference (BMVC), 2024

Lorenzo Baraldi

297

26 Aug 2024

One-shot Video Imitation via Parameterized Symbolic Abstraction GraphsIEEE International Conference on Robotics and Automation (ICRA), 2024

Christopher G Atkeson

353

22 Aug 2024

Ask, Attend, Attack: A Effective Decision-Based Black-Box Targeted Attack for Image-to-Text ModelsNeural Information Processing Systems (NeurIPS), 2024

201

16 Aug 2024

DIVE: Towards Descriptive and Diverse Visual Commonsense GenerationConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

SangKeun Lee

183

15 Aug 2024

IIU: Independent Inference Units for Knowledge-based Visual Question AnsweringKnowledge Science, Engineering and Management (KSEM), 2024

Yili Li

Jing Yu

Keke Gai

Gang Xiong

154

15 Aug 2024

Context-aware Visual Storytelling with Visual Prefix Tuning and Contrastive LearningInternational Conference on Natural Language Generation (INLG), 2024

Yingjin Song

Denis Paperno

Albert Gatt

188

12 Aug 2024

Hyperbolic Learning with Multimodal Large Language Models

Paolo Mandica

Luca Franco

Konstantinos Kallidromitis

Suzanne Petryk

Fabio Galasso

250

09 Aug 2024

Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis

444

09 Aug 2024

UNMuTe: Unifying Navigation and Multimodal Dialogue-like Text Generation

265

08 Aug 2024

A Novel Evaluation Framework for Image2Text Generation

237

03 Aug 2024

Learning Video Context as Interleaved Multimodal Sequences

248

31 Jul 2024

ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models

Jiayi Ji

330

31 Jul 2024

BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual CuesEuropean Conference on Computer Vision (ECCV), 2024

Sara Sarto

Marcella Cornia

Lorenzo Baraldi

Rita Cucchiara

190

29 Jul 2024

HICEScore: A Hierarchical Metric for Image Captioning Evaluation

214

26 Jul 2024

WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding

...

157

22 Jul 2024

Navigation Instruction Generation with BEV Perception and Large Language Models

263

21 Jul 2024

ModalChorus: Visual Probing and Alignment of Multi-modal Embeddings via Modal Fusion Map

266

17 Jul 2024

Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning

Yunbin Tu

252

16 Jul 2024

Controllable Navigation Instruction Generation with Chain of Thought Prompting

Xianghao Kong

Yi Yang

241

10 Jul 2024

Vision-Language Models under Cultural and Inclusive Considerations

Anders Søgaard

242

08 Jul 2024

Explainable Image Captioning using CNN- CNN architecture and Hierarchical Attention

Rishi Mohan

Sanjay Sureshkumar

Vignesh Sivasubramaniam

153

28 Jun 2024

GUIDE: A Guideline-Guided Dataset for Instructional Video Comprehension

Zekun Wang

Bing Qin

180

26 Jun 2024

A Refer-and-Ground Multimodal Large Language Model for Biomedicine

315

26 Jun 2024

RaTEScore: A Metric for Radiology Report Generation

W. Zhao

Chaoyi Wu

Xiechi Zhang

Ya Zhang

Yanfeng Wang

Weidi Xie

233

24 Jun 2024

UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos

Yuting Mei

Linli Yao

Qin Jin

197

24 Jun 2024

LatentExplainer: Explaining Latent Representations in Deep Generative Models with Multimodal Large Language Models

Liang Zhao

425

21 Jun 2024

Adaptable Logical Control for Large Language Models

Nanyun Peng

188

19 Jun 2024

Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio EncodingInterspeech (Interspeech), 2024

Jizhong Liu

Gang Li

Junbo Zhang

Heinrich Dinkel

Yongqing Wang

Zhiyong Yan

Yujun Wang

Bin Wang

AuLLM

330

19 Jun 2024

RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding

Haifeng Li

265

18 Jun 2024