Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
1612.00370
Cited By

Improved Image Captioning via Policy Gradient optimization of SPIDEr

v1v2v3v4 (latest)

Improved Image Captioning via Policy Gradient optimization of SPIDEr

1 December 2016

Kevin Patrick Murphy

ArXiv (abs)PDF HTML

Papers citing "Improved Image Captioning via Policy Gradient optimization of SPIDEr"

50 / 232 papers shown

Listening without Looking: Modality Bias in Audio-Visual Captioning

Listening without Looking: Modality Bias in Audio-Visual Captioning

Toranosuke Manabe

Tatsuya Komatsu

94

0

0

28 Oct 2025

Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap

Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap

114

1

0

13 Oct 2025

AURA Score: A Metric For Holistic Audio Question Answering Evaluation

AURA Score: A Metric For Holistic Audio Question Answering Evaluation

116

0

0

06 Oct 2025

Spatial-CLAP: Learning Spatially-Aware audio--text Embeddings for Multi-Source Conditions

Spatial-CLAP: Learning Spatially-Aware audio--text Embeddings for Multi-Source Conditions

Shinnosuke Takamichi

Hiroshi Saruwatari

127

1

0

18 Sep 2025

Landsat30-AU: A Vision-Language Dataset for Australian Landsat Imagery

Landsat30-AU: A Vision-Language Dataset for Australian Landsat Imagery

205

0

0

05 Aug 2025

From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-modal Understanding in Multimodal LLMs

From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-modal Understanding in Multimodal LLMs

266

0

0

03 Aug 2025

CLAP-ART: Automated Audio Captioning with Semantic-rich Audio Representation Tokenizer

CLAP-ART: Automated Audio Captioning with Semantic-rich Audio Representation Tokenizer

Binh Thien Nguyen

Masahiro Yasuda

Yasunori Ohishi

Daisuke Niizumi

205

2

0

01 Jun 2025

Discrete Audio Representations for Automated Audio Captioning

Discrete Audio Representations for Automated Audio Captioning

260

1

0

21 May 2025

Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context

Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context

253

1

0

19 Mar 2025

Mellow: a small audio language model for reasoning

322

20

0

11 Mar 2025

Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation

Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented GenerationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Mohammad Mahdi Abootorabi

Amirhosein Zobeiri

Mohammadali Mohammadkhani

Bardia Mohammadi

Ehsaneddin Asgari

738

38

0

12 Feb 2025

Unbiased Sliced Wasserstein Kernels for High-Quality Audio Captioning

Unbiased Sliced Wasserstein Kernels for High-Quality Audio Captioning

Gholamreza Haffari

299

0

0

08 Feb 2025

MACE: Leveraging Audio for Evaluating Audio Captioning Systems

MACE: Leveraging Audio for Evaluating Audio Captioning Systems

267

4

0

01 Nov 2024

EmotionCaps: Enhancing Audio Captioning Through Emotion-Augmented Data
Generation

EmotionCaps: Enhancing Audio Captioning Through Emotion-Augmented Data Generation

Mithun Manivannan

Vignesh Nethrapalli

Mark Cartwright

215

2

0

15 Oct 2024

Enhancing Robustness in Deep Reinforcement Learning: A Lyapunov Exponent
Approach

Enhancing Robustness in Deep Reinforcement Learning: A Lyapunov Exponent ApproachNeural Information Processing Systems (NeurIPS), 2024

Nicolas Pugeault

418

24

0

14 Oct 2024

SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and
CLAP-Refine through LLMs

SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Ziyang Ma

Kai Yu

325

18

0

12 Oct 2024

DRCap: Decoding CLAP Latents with Retrieval-Augmented Generation for Zero-shot Audio Captioning

DRCap: Decoding CLAP Latents with Retrieval-Augmented Generation for Zero-shot Audio CaptioningIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Ziyang Ma

332

17

0

12 Oct 2024

Audio Description Generation in the Era of LLMs and VLMs: A Review of
Transferable Generative AI Technologies

Audio Description Generation in the Era of LLMs and VLMs: A Review of Transferable Generative AI TechnologiesNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

246

6

0

11 Oct 2024

An Eye for an Ear: Zero-shot Audio Description Leveraging an Image
Captioner using Audiovisual Distribution Alignment

An Eye for an Ear: Zero-shot Audio Description Leveraging an Image Captioner using Audiovisual Distribution Alignment

Stéphane Lathuilière

218

0

0

08 Oct 2024

CLAIR-A: Leveraging Large Language Models to Judge Audio Captions

CLAIR-A: Leveraging Large Language Models to Judge Audio Captions

Joseph E. Gonzalez

323

4

0

19 Sep 2024

Towards Diverse and Efficient Audio Captioning via Diffusion Models

Towards Diverse and Efficient Audio Captioning via Diffusion Models

281

5

0

14 Sep 2024

Revisiting Image Captioning Training Paradigm via Direct CLIP-based
Optimization

Revisiting Image Captioning Training Paradigm via Direct CLIP-based OptimizationBritish Machine Vision Conference (BMVC), 2024

Nicholas Moratelli

Davide Caffagni

Marcella Cornia

Lorenzo Baraldi

370

7

0

26 Aug 2024

Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis

Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis

Gabriel Stanovsky

469

0

0

09 Aug 2024

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

Guangzhi Sun

Wenyi Yu

Xianzhao Chen

Tian Tan

Wei Li

Zejun Ma

Yuxuan Wang

Chao Zhang

254

78

0

22 Jun 2024

Enhancing Automated Audio Captioning via Large Language Models with
Optimized Audio Encoding

Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio EncodingInterspeech (Interspeech), 2024

Jizhong Liu

Junbo Zhang

Heinrich Dinkel

Yongqing Wang

Yujun Wang

Bin Wang

344

13

0

19 Jun 2024

Zero-Shot Audio Captioning Using Soft and Hard Prompts

Zero-Shot Audio Captioning Using Soft and Hard Prompts

Zhanyu Ma

244

8

0

10 Jun 2024

Sentiment-oriented Transformer-based Variational Autoencoder Network for
Live Video Commenting

Sentiment-oriented Transformer-based Variational Autoencoder Network for Live Video Commenting

Weidong Chen

185

7

0

19 Apr 2024

LocCa: Visual Pretraining with Location-aware Captioners

LocCa: Visual Pretraining with Location-aware Captioners

Michael Tschannen

Ibrahim Alabdulmohsin

André Susano Pinto

Andreas Steiner

387

24

0

28 Mar 2024

ACES: Evaluating Automated Audio Captioning Models on the Semantics of
Sounds

ACES: Evaluating Automated Audio Captioning Models on the Semantics of Sounds

Bruno L. Giordano

239

6

0

27 Mar 2024

Improved Baselines for Data-efficient Perceptual Augmentation of LLMs

Improved Baselines for Data-efficient Perceptual Augmentation of LLMs

Théophane Vallaeys

333

16

0

20 Mar 2024

EDTC: enhance depth of text comprehension in automated audio captioning

EDTC: enhance depth of text comprehension in automated audio captioning

215

0

0

27 Feb 2024

Intensive Vision-guided Network for Radiology Report Generation

Intensive Vision-guided Network for Radiology Report GenerationPhysics in Medicine and Biology (PMB), 2023

317

2

0

06 Feb 2024

EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for
Automated Audio Captioning

EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning

Jaeyeon Kim

Jinjoo Lee

Sang Hoon Woo

228

44

0

31 Jan 2024

Audio-Visual LLM for Video Understanding

Audio-Visual LLM for Video Understanding

Lei Zhang

261

72

0

11 Dec 2023

X-InstructBLIP: A Framework for aligning X-Modal instruction-aware
representations to LLMs and Emergent Cross-modal Reasoning

X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning

Artemis Panagopoulou

Ran Xu

Silvio Savarese

Juan Carlos Niebles

282

72

0

30 Nov 2023

C3Net: Compound Conditioned ControlNet for Multimodal Content Generation

C3Net: Compound Conditioned ControlNet for Multimodal Content GenerationComputer Vision and Pattern Recognition (CVPR), 2023

266

9

0

29 Nov 2023

Radiology-Aware Model-Based Evaluation Metric for Report Generation

Radiology-Aware Model-Based Evaluation Metric for Report Generation

Farhad Nooralahzadeh

Morteza Rohanian

Michael Krauthammer

120

8

0

28 Nov 2023

Zero-shot audio captioning with audio-language model guidance and audio
context keywords

Zero-shot audio captioning with audio-language model guidance and audio context keywords

Leonard Salewski

A. Sophia Koepke

241

15

0

14 Nov 2023

Fine-grained Audio-Visual Joint Representations for Multimodal Large
Language Models

Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models

Guangzhi Sun

Wenyi Yu

271

16

0

09 Oct 2023

ContextRef: Evaluating Referenceless Metrics For Image Description
Generation

ContextRef: Evaluating Referenceless Metrics For Image Description GenerationInternational Conference on Learning Representations (ICLR), 2023

Christopher Potts

283

5

0

21 Sep 2023

A Large-scale Dataset for Audio-Language Representation Learning

A Large-scale Dataset for Audio-Language Representation LearningACM Multimedia (ACM MM), 2023

379

48

0

20 Sep 2023

Synth-AC: Enhancing Audio Captioning with Synthetic Supervision

Synth-AC: Enhancing Audio Captioning with Synthetic Supervision

190

2

0

18 Sep 2023

CoNeTTE: An efficient Audio Captioning system leveraging multiple
datasets with Task Embedding

CoNeTTE: An efficient Audio Captioning system leveraging multiple datasets with Task Embedding

Thomas Pellegrini

309

21

0

01 Sep 2023

Killing two birds with one stone: Can an audio captioning system also be
used for audio-text retrieval?

Killing two birds with one stone: Can an audio captioning system also be used for audio-text retrieval?

Thomas Pellegrini

173

6

0

29 Aug 2023

Audio Difference Captioning Utilizing Similarity-Discrepancy
Disentanglement

Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement

Yasunori Ohishi

Daisuke Niizumi

232

10

0

23 Aug 2023

DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and
Delivery Route Prediction

DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and Delivery Route PredictionKnowledge Discovery and Data Mining (KDD), 2023

Xiaowei Mao

Haomin Wen

301

18

0

30 Jul 2023

Improving Reference-based Distinctive Image Captioning with Contrastive
Rewards

Improving Reference-based Distinctive Image Captioning with Contrastive Rewards

215

10

0

25 Jun 2023

Learning to Generate Better Than Your LLM

Learning to Generate Better Than Your LLM

Jonathan D. Chang

Kianté Brantley

Rajkumar Ramamurthy

Dipendra Kumar Misra

316

57

0

20 Jun 2023

Adapting a ConvNeXt model to audio classification on AudioSet

Adapting a ConvNeXt model to audio classification on AudioSetInterspeech (Interspeech), 2023

Thomas Pellegrini

Ismail Khalfaoui-Hassani

204

29

0

01 Jun 2023

Dual Transformer Decoder based Features Fusion Network for Automated
Audio Captioning

Dual Transformer Decoder based Features Fusion Network for Automated Audio CaptioningInterspeech (Interspeech), 2023

Mark D. Plumbley

180

5

0

30 May 2023

Page 1 of 5