Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN)

20 December 2014

Yi Yang

Papers citing "Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN)"

50 / 417 papers shown

Title
Variational Prefix Tuning for Diverse and Accurate Code Summarization Using Pre-trained Language Models Junda Zhao Yuliang Song Eldan Cohen 11 0 0 14 May 2025
Tri-FusionNet: Enhancing Image Description Generation with Transformer-based Fusion Network and Dual Attention Mechanism Lakshita Agarwal Bindu Verma ViT 27 0 0 23 Apr 2025
Group-based Distinctive Image Captioning with Memory Difference Encoding and Attention Jiuniu Wang Wenjia Xu Qingzhong Wang Antoni B. Chan 38 0 0 03 Apr 2025
Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions Jia Chen Qian Dong Haitao Li Xiaohui He Yan Gao ... Ping Yang Chen Xu Yao Hu Qingyao Ai Y. Liu 42 0 0 01 Mar 2025
CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model Dongyoung Go Taesun Whang Chanhee Lee Hwayeon Kim Sunghoon Park Seunghwan Ji Dongchan Kim Young-Bum Kim Young-Bum Kim LRM 142 1 0 19 Nov 2024
ViTOC: Vision Transformer and Object-aware Captioner Feiyang Huang 25 0 0 09 Nov 2024
Preventing Model Collapse in Deep Canonical Correlation Analysis by Noise Regularization Junlin He Jinxiao Du Susu Xu Wei Ma 16 0 0 01 Nov 2024
Pixels to Prose: Understanding the art of Image Captioning Hrishikesh Singh Aarti Sharma Millie Pant 3DV VLM 25 0 0 28 Aug 2024
A Survey on Integrated Sensing, Communication, and Computation Dingzhu Wen Yong Zhou Xiaoyang Li Yuanming Shi Kaibin Huang Khaled B. Letaief 29 0 0 15 Aug 2024
Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis Uri Berger Gabriel Stanovsky Omri Abend Lea Frermann 27 0 0 09 Aug 2024
Explainable Image Captioning using CNN- CNN architecture and Hierarchical Attention Rishi Mohan Sanjay Sureshkumar Vignesh Sivasubramaniam 23 1 0 28 Jun 2024
Hire: Hybrid-modal Interaction with Multiple Relational Enhancements for Image-Text Matching Xuri Ge Fuhai Chen Songpei Xu Fuxiang Tao Jie Wang Joemon M. Jose 29 0 0 05 Jun 2024
Image Captioning via Dynamic Path Customization Yiwei Ma Jiayi Ji Xiaoshuai Sun Yiyi Zhou Xiaopeng Hong Yongjian Wu Rongrong Ji 27 0 0 01 Jun 2024
Resolving Word Vagueness with Scenario-guided Adapter for Natural Language Inference Yonghao Liu Mengyu Li Di Liang Ximing Li Fausto Giunchiglia Lan Huang Xiaoyue Feng Renchu Guan 26 3 0 21 May 2024
Semi-Supervised Image Captioning Considering Wasserstein Graph Matching Yang Yang 36 0 0 26 Mar 2024
Non-autoregressive Sequence-to-Sequence Vision-Language Models Kunyu Shi Qi Dong Luis Goncalves Zhuowen Tu Stefano Soatto VLM 35 3 0 04 Mar 2024
VIXEN: Visual Text Comparison Network for Image Difference Captioning Alexander Black Jing Shi Yifei Fai Tu Bui John Collomosse 42 5 0 29 Feb 2024
Social Media Ready Caption Generation for Brands Himanshu Maheshwari Koustava Goswami Apoorv Saxena Balaji Vasan Srinivasan 16 1 0 03 Jan 2024
A Systematic Review of Deep Learning-based Research on Radiology Report Generation Chang Liu Yuanhe Tian Yan Song MedIm 25 15 0 23 Nov 2023
A Survey on Multimodal Large Language Models for Autonomous Driving Can Cui Yunsheng Ma Xu Cao Wenqian Ye Yang Zhou ... Xinrui Yan Shuqi Mei Jianguo Cao Ziran Wang Chao Zheng 38 249 0 21 Nov 2023
A Survey on Image-text Multimodal Models Ruifeng Guo Jingxuan Wei Linzhuang Sun Khai Le-Duc Guiyong Chang Dawei Liu Sibo Zhang Zhengbing Yao Mingjun Xu Liping Bu VLM 21 5 0 23 Sep 2023
NICE: CVPR 2023 Challenge on Zero-shot Image Captioning Taehoon Kim Pyunghwan Ahn Sangyun Kim Sihaeng Lee Mark A Marsden ... Yujin Wang Yimu Wang Tiancheng Gu Xingchang Lv Mingmao Sun VLM 14 4 0 05 Sep 2023
Foundation Model is Efficient Multimodal Multitask Model Selector Fanqing Meng Wenqi Shao Zhanglin Peng Chong Jiang Kaipeng Zhang Yu Qiao Ping Luo 25 13 0 11 Aug 2023
Reverse Stable Diffusion: What prompt was used to generate this image? Florinel-Alin Croitoru Vlad Hondru Radu Tudor Ionescu M. Shah VLM DiffM 28 5 0 02 Aug 2023
DiffCap: Exploring Continuous Diffusion on Image Captioning Yufeng He Zefan Cai Xu Gan Baobao Chang DiffM 21 5 0 20 May 2023
To Compress or Not to Compress- Self-Supervised Learning and Information Theory: A Review Ravid Shwartz-Ziv Yann LeCun SSL 27 71 0 19 Apr 2023
Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report Generation Yaowei Li Bang-ju Yang Xuxin Cheng Zhihong Zhu Hongxiang Li Yuexian Zou 19 31 0 28 Mar 2023
A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need? Chaoning Zhang Chenshuang Zhang Sheng Zheng Yu Qiao Chenghao Li ... Lik-Hang Lee Yang Yang Heng Tao Shen In So Kweon Choong Seon Hong 75 159 0 21 Mar 2023
Multi-modal reward for visual relationships-based image captioning Ali Abedi Hossein Karshenas Peyman Adibi 22 2 0 19 Mar 2023
Multi-modal Machine Learning in Engineering Design: A Review and Future Directions Binyang Song Ruilin Zhou Faez Ahmed AI4CE 35 40 0 14 Feb 2023
Towards Local Visual Modeling for Image Captioning Yiwei Ma Jiayi Ji Xiaoshuai Sun Yiyi Zhou R. Ji ViT 11 71 0 13 Feb 2023
Stacked Cross-modal Feature Consolidation Attention Networks for Image Captioning Mozhgan Pourkeshavarz Shahabedin Nabavi Mohsen Moghaddam M. Shamsfard 21 4 0 08 Feb 2023
An Image captioning algorithm based on the Hybrid Deep Learning Technique (CNN+GRU) Rana Adnan Ahmad Muhammad Azhar Hina Sattar 16 10 0 06 Jan 2023
Noise-aware Learning from Web-crawled Image-Text Data for Image Captioning Woohyun Kang Jonghwan Mun Sungjun Lee Byungseok Roh VLM 6 18 0 27 Dec 2022
Training Integer-Only Deep Recurrent Neural Networks V. Nia Eyyub Sari Vanessa Courville M. Asgharian MQ 30 2 0 22 Dec 2022
Make-A-Story: Visual Memory Conditioned Consistent Story Generation Tanzila Rahman Hsin-Ying Lee Jian Ren Sergey Tulyakov Shweta Mahajan Leonid Sigal DiffM 16 68 0 23 Nov 2022
Describing Sets of Images with Textual-PCA Oded Hupert Idan Schwartz Lior Wolf CoGe 29 1 0 21 Oct 2022
Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval Xuri Ge Fuhai Chen Songpei Xu Fuxiang Tao J. Jose 11 26 0 17 Oct 2022
CLIP-Diffusion-LM: Apply Diffusion Model on Image Captioning Shi-You Xu VLM DiffM 30 11 0 10 Oct 2022
Vision+X: A Survey on Multimodal Learning in the Light of Data Ye Zhu Yuehua Wu N. Sebe Yan Yan 33 16 0 05 Oct 2022
Learning Distinct and Representative Styles for Image Captioning Qi Chen Chaorui Deng Qi Wu VLM 32 23 0 17 Sep 2022
Every picture tells a story: Image-grounded controllable stylistic story generation Holy Lovenia Bryan Wilie Romain Barraud Samuel Cahyawijaya Willy Chung Pascale Fung 19 8 0 04 Sep 2022
Large-Scale Traffic Congestion Prediction based on Multimodal Fusion and Representation Mapping Bo Zhou Jiahui Liu Songyi Cui Yaping Zhao 18 4 0 23 Aug 2022
CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for Image-Text Retrieval Haoran Wang Dongliang He Wenhao Wu Boyang Xia Min Yang Fu Li Yunlong Yu Zhong Ji Errui Ding Jingdong Wang 19 22 0 21 Aug 2022
Distinctive Image Captioning via CLIP Guided Group Optimization Youyuan Zhang Jiuniu Wang Hao Wu Wenjia Xu VLM 24 8 0 08 Aug 2022
Zero-Shot Video Captioning with Evolving Pseudo-Tokens Yoad Tewel Yoav Shalev Roy Nadler Idan Schwartz Lior Wolf 29 28 0 22 Jul 2022
Explicit Image Caption Editing Zhen Wang Long Chen Wenbo Ma G. Han Yulei Niu Jian Shao Jun Xiao 9 12 0 20 Jul 2022
Are metrics measuring what they should? An evaluation of image captioning task metrics Othón González-Chávez Guillermo Ruiz Daniela Moctezuma Tania A. Ramirez-delreal 19 9 0 04 Jul 2022
What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding without Text Inputs Tal Shaharabany Yoad Tewel Lior Wolf ObjD 36 15 0 19 Jun 2022
Comprehending and Ordering Semantics for Image Captioning Yehao Li Yingwei Pan Ting Yao Tao Mei 13 87 0 14 Jun 2022