Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
1612.00370
Cited By

Improved Image Captioning via Policy Gradient optimization of SPIDEr

v1v2v3v4 (latest)

Improved Image Captioning via Policy Gradient optimization of SPIDEr

1 December 2016

Kevin Patrick Murphy

ArXiv (abs)PDF HTML

Papers citing "Improved Image Captioning via Policy Gradient optimization of SPIDEr"

50 / 232 papers shown

Listening without Looking: Modality Bias in Audio-Visual Captioning

Listening without Looking: Modality Bias in Audio-Visual Captioning

Toranosuke Manabe

Tatsuya Komatsu

80

0

0

28 Oct 2025

Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap

Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap

83

0

0

13 Oct 2025

AURA Score: A Metric For Holistic Audio Question Answering Evaluation

AURA Score: A Metric For Holistic Audio Question Answering Evaluation

112

0

0

06 Oct 2025

Spatial-CLAP: Learning Spatially-Aware audio--text Embeddings for Multi-Source Conditions

Spatial-CLAP: Learning Spatially-Aware audio--text Embeddings for Multi-Source Conditions

Shinnosuke Takamichi

Hiroshi Saruwatari

113

0

0

18 Sep 2025

Landsat30-AU: A Vision-Language Dataset for Australian Landsat Imagery

Landsat30-AU: A Vision-Language Dataset for Australian Landsat Imagery

197

0

0

05 Aug 2025

From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-modal Understanding in Multimodal LLMs

From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-modal Understanding in Multimodal LLMs

208

0

0

03 Aug 2025

CLAP-ART: Automated Audio Captioning with Semantic-rich Audio Representation Tokenizer

CLAP-ART: Automated Audio Captioning with Semantic-rich Audio Representation Tokenizer

Binh Thien Nguyen

Masahiro Yasuda

Yasunori Ohishi

Daisuke Niizumi

189

2

0

01 Jun 2025

Discrete Audio Representations for Automated Audio Captioning

Discrete Audio Representations for Automated Audio Captioning

247

1

0

21 May 2025

Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context

Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context

250

1

0

19 Mar 2025

Mellow: a small audio language model for reasoning

290

17

0

11 Mar 2025

Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation

Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented GenerationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Mohammad Mahdi Abootorabi

Amirhosein Zobeiri

Mohammadali Mohammadkhani

Bardia Mohammadi

Ehsaneddin Asgari

723

31

0

12 Feb 2025

Unbiased Sliced Wasserstein Kernels for High-Quality Audio Captioning

Unbiased Sliced Wasserstein Kernels for High-Quality Audio Captioning

Gholamreza Haffari

279

0

0

08 Feb 2025

MACE: Leveraging Audio for Evaluating Audio Captioning Systems

MACE: Leveraging Audio for Evaluating Audio Captioning Systems

259

4

0

01 Nov 2024

EmotionCaps: Enhancing Audio Captioning Through Emotion-Augmented Data
Generation

EmotionCaps: Enhancing Audio Captioning Through Emotion-Augmented Data Generation

Mithun Manivannan

Vignesh Nethrapalli

Mark Cartwright

169

2

0

15 Oct 2024

Enhancing Robustness in Deep Reinforcement Learning: A Lyapunov Exponent
Approach

Enhancing Robustness in Deep Reinforcement Learning: A Lyapunov Exponent ApproachNeural Information Processing Systems (NeurIPS), 2024

Nicolas Pugeault

365

2

0

14 Oct 2024

SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and
CLAP-Refine through LLMs

SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Ziyang Ma

Kai Yu

292

12

0

12 Oct 2024

DRCap: Decoding CLAP Latents with Retrieval-Augmented Generation for Zero-shot Audio Captioning

DRCap: Decoding CLAP Latents with Retrieval-Augmented Generation for Zero-shot Audio CaptioningIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Ziyang Ma

320

15

0

12 Oct 2024

Audio Description Generation in the Era of LLMs and VLMs: A Review of
Transferable Generative AI Technologies

Audio Description Generation in the Era of LLMs and VLMs: A Review of Transferable Generative AI TechnologiesNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

227

5

0

11 Oct 2024

An Eye for an Ear: Zero-shot Audio Description Leveraging an Image
Captioner using Audiovisual Distribution Alignment

An Eye for an Ear: Zero-shot Audio Description Leveraging an Image Captioner using Audiovisual Distribution Alignment

Stéphane Lathuilière

202

0

0

08 Oct 2024

CLAIR-A: Leveraging Large Language Models to Judge Audio Captions

CLAIR-A: Leveraging Large Language Models to Judge Audio Captions

Joseph E. Gonzalez

240

3

0

19 Sep 2024

Towards Diverse and Efficient Audio Captioning via Diffusion Models

Towards Diverse and Efficient Audio Captioning via Diffusion Models

264

5

0

14 Sep 2024

Revisiting Image Captioning Training Paradigm via Direct CLIP-based
Optimization

Revisiting Image Captioning Training Paradigm via Direct CLIP-based OptimizationBritish Machine Vision Conference (BMVC), 2024

Nicholas Moratelli

Davide Caffagni

Marcella Cornia

Lorenzo Baraldi

291

7

0

26 Aug 2024

Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis

Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis

Gabriel Stanovsky

438

2

0

09 Aug 2024

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

Guangzhi Sun

Wenyi Yu

Xianzhao Chen

Tian Tan

Wei Li

Zejun Ma

Yuxuan Wang

Chao Zhang

247

66

0

22 Jun 2024

Enhancing Automated Audio Captioning via Large Language Models with
Optimized Audio Encoding

Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio EncodingInterspeech (Interspeech), 2024

Jizhong Liu

Junbo Zhang

Heinrich Dinkel

Yongqing Wang

Yujun Wang

Bin Wang

327

12

0

19 Jun 2024

Zero-Shot Audio Captioning Using Soft and Hard Prompts

Zero-Shot Audio Captioning Using Soft and Hard Prompts

Zhanyu Ma

227

8

0

10 Jun 2024

Sentiment-oriented Transformer-based Variational Autoencoder Network for
Live Video Commenting

Sentiment-oriented Transformer-based Variational Autoencoder Network for Live Video Commenting

Weidong Chen

179

5

0

19 Apr 2024

LocCa: Visual Pretraining with Location-aware Captioners

LocCa: Visual Pretraining with Location-aware Captioners

Michael Tschannen

Ibrahim Alabdulmohsin

André Susano Pinto

Andreas Steiner

376

21

0

28 Mar 2024

ACES: Evaluating Automated Audio Captioning Models on the Semantics of
Sounds

ACES: Evaluating Automated Audio Captioning Models on the Semantics of Sounds

Bruno L. Giordano

208

5

0

27 Mar 2024

Improved Baselines for Data-efficient Perceptual Augmentation of LLMs

Improved Baselines for Data-efficient Perceptual Augmentation of LLMs

Théophane Vallaeys

313

16

0

20 Mar 2024

EDTC: enhance depth of text comprehension in automated audio captioning

EDTC: enhance depth of text comprehension in automated audio captioning

207

0

0

27 Feb 2024

Intensive Vision-guided Network for Radiology Report Generation

Intensive Vision-guided Network for Radiology Report GenerationPhysics in Medicine and Biology (PMB), 2023

269

1

0

06 Feb 2024

EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for
Automated Audio Captioning

EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning

Jaeyeon Kim

Jinjoo Lee

Sang Hoon Woo

203

42

0

31 Jan 2024

Audio-Visual LLM for Video Understanding

Audio-Visual LLM for Video Understanding

Lei Zhang

247

66

0

11 Dec 2023

X-InstructBLIP: A Framework for aligning X-Modal instruction-aware
representations to LLMs and Emergent Cross-modal Reasoning

X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning

Artemis Panagopoulou

Ran Xu

Silvio Savarese

Juan Carlos Niebles

276

69

0

30 Nov 2023

C3Net: Compound Conditioned ControlNet for Multimodal Content Generation

C3Net: Compound Conditioned ControlNet for Multimodal Content GenerationComputer Vision and Pattern Recognition (CVPR), 2023

245

8

0

29 Nov 2023

Radiology-Aware Model-Based Evaluation Metric for Report Generation

Radiology-Aware Model-Based Evaluation Metric for Report Generation

Farhad Nooralahzadeh

Morteza Rohanian

Michael Krauthammer

112

7

0

28 Nov 2023

Zero-shot audio captioning with audio-language model guidance and audio
context keywords

Zero-shot audio captioning with audio-language model guidance and audio context keywords

Leonard Salewski

A. Sophia Koepke

202

15

0

14 Nov 2023

Fine-grained Audio-Visual Joint Representations for Multimodal Large
Language Models

Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models

Guangzhi Sun

Wenyi Yu

249

16

0

09 Oct 2023

ContextRef: Evaluating Referenceless Metrics For Image Description
Generation

ContextRef: Evaluating Referenceless Metrics For Image Description GenerationInternational Conference on Learning Representations (ICLR), 2023

Christopher Potts

246

5

0

21 Sep 2023

A Large-scale Dataset for Audio-Language Representation Learning

A Large-scale Dataset for Audio-Language Representation LearningACM Multimedia (ACM MM), 2023

364

47

0

20 Sep 2023

Synth-AC: Enhancing Audio Captioning with Synthetic Supervision

Synth-AC: Enhancing Audio Captioning with Synthetic Supervision

168

2

0

18 Sep 2023

CoNeTTE: An efficient Audio Captioning system leveraging multiple
datasets with Task Embedding

CoNeTTE: An efficient Audio Captioning system leveraging multiple datasets with Task Embedding

Thomas Pellegrini

279

21

0

01 Sep 2023

Killing two birds with one stone: Can an audio captioning system also be
used for audio-text retrieval?

Killing two birds with one stone: Can an audio captioning system also be used for audio-text retrieval?

Thomas Pellegrini

166

5

0

29 Aug 2023

Audio Difference Captioning Utilizing Similarity-Discrepancy
Disentanglement

Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement

Yasunori Ohishi

Daisuke Niizumi

213

10

0

23 Aug 2023

DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and
Delivery Route Prediction

DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and Delivery Route PredictionKnowledge Discovery and Data Mining (KDD), 2023

Xiaowei Mao

Haomin Wen

253

17

0

30 Jul 2023

Improving Reference-based Distinctive Image Captioning with Contrastive
Rewards

Improving Reference-based Distinctive Image Captioning with Contrastive Rewards

200

10

0

25 Jun 2023

Learning to Generate Better Than Your LLM

Learning to Generate Better Than Your LLM

Jonathan D. Chang

Kianté Brantley

Rajkumar Ramamurthy

Dipendra Kumar Misra

272

54

0

20 Jun 2023

Adapting a ConvNeXt model to audio classification on AudioSet

Adapting a ConvNeXt model to audio classification on AudioSetInterspeech (Interspeech), 2023

Thomas Pellegrini

Ismail Khalfaoui-Hassani

159

29

0

01 Jun 2023

Dual Transformer Decoder based Features Fusion Network for Automated
Audio Captioning

Dual Transformer Decoder based Features Fusion Network for Automated Audio CaptioningInterspeech (Interspeech), 2023

Mark D. Plumbley

164

5

0

30 May 2023