Papers citing 'CIDEr: Consensus-based Image Description Evaluation'

Title
Self-Guiding Multimodal LSTM - when we do not have a perfect training dataset for image captioning Yang Xian Yingli Tian VLM 183 23 0 15 Sep 2017
Robustness Analysis of Visual QA Models by Basic Questions Jia-Hong Huang Cuong Duc Dao Modar Alfadly C. Huck Yang Guohao Li OOD 199 25 0 14 Sep 2017
Stack-Captioning: Coarse-to-Fine Learning for Image Captioning Jiuxiang Gu Jianfei Cai G. Wang Tsuhan Chen 207 187 0 11 Sep 2017
Video Captioning with Guidance of Multimodal Latent Topics Shizhe Chen Jia Chen Qin Jin Alexander G. Hauptmann 187 71 0 31 Aug 2017
Generating Video Descriptions with Topic Guidance Shizhe Chen Jia Chen Qin Jin 135 21 0 31 Aug 2017
VQS: Linking Segmentations to Questions and Answers for Supervised Attention in VQA and Question-Focused Semantic SegmentationIEEE International Conference on Computer Vision (ICCV), 2017 Chuang Gan Yandong Li Haoxiang Li Chen Sun Boqing Gong 211 135 0 15 Aug 2017
Fluency-Guided Cross-Lingual Image CaptioningACM Multimedia (ACM MM), 2017 Weiyu Lan Xirong Li Jianfeng Dong 130 99 0 15 Aug 2017
From Deterministic to Generative: Multi-Modal Stochastic RNNs for Video CaptioningIEEE Transactions on Neural Networks and Learning Systems (IEEE TNNLS), 2017 Jingkuan Song Yuyu Guo Lianli Gao Xuelong Li Alan Hanjalic Heng Tao Shen 150 227 0 08 Aug 2017
Reinforced Video Captioning with Entailment RewardsConference on Empirical Methods in Natural Language Processing (EMNLP), 2017 Ramakanth Pasunuru Joey Tianyi Zhou 145 118 0 07 Aug 2017
What is the Role of Recurrent Neural Networks (RNNs) in an Image Caption Generator?International Conference on Natural Language Generation (INLG), 2017 Marc Tanti Albert Gatt K. Camilleri 138 60 0 07 Aug 2017
Referenceless Quality Estimation for Natural Language Generation Ondrej Dusek Jekaterina Novikova Verena Rieser 157 30 0 05 Aug 2017
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang AIMat 526 4,499 0 25 Jul 2017
OBJ2TEXT: Generating Visually Descriptive Language from Object Layouts Xuwang Yin Vicente Ordonez VLM 160 55 0 22 Jul 2017
Why We Need New Evaluation Metrics for NLG Jekaterina Novikova Ondrej Dusek Amanda Cercas Curry Verena Rieser 204 485 0 21 Jul 2017
cvpaper.challenge in 2016: Futuristic Computer Vision through 1,600 Papers Survey Hirokatsu Kataoka Soma Shirakabe Yun He S. Ueta Teppei Suzuki ... Ryousuke Takasawa Masataka Fuchida Yudai Miyashita Kazushige Okayasu Yuta Matsuzaki 189 1 0 20 Jul 2017
Supervising Neural Attention Models for Video Captioning by Human Gaze Data Youngjae Yu Jongwook Choi Yeonhwa Kim Kyung Yoo Sang-Hun Lee Gunhee Kim 188 70 0 19 Jul 2017
MDNet: A Semantically and Visually Interpretable Medical Image Diagnosis Network Zizhao Zhang Yuanpu Xie Fuyong Xing M. McGough Ling Yang MedIm 159 323 0 08 Jul 2017
Automated Audio Captioning with Recurrent Neural Networks Konstantinos Drossos Sharath Adavanne Maria Sandsten 166 139 0 30 Jun 2017
Actor-Critic Sequence Training for Image Captioning Li Zhang Flood Sung Feng Liu Tao Xiang S. Gong Yongxin Yang Timothy M. Hospedales 144 114 0 29 Jun 2017
The E2E Dataset: New Challenges For End-to-End Generation Jekaterina Novikova Ondrej Dusek Verena Rieser 287 490 0 28 Jun 2017
Paying More Attention to Saliency: Image Captioning with Saliency and Context Attention Marcella Cornia Lorenzo Baraldi Giuseppe Serra Rita Cucchiara 156 90 0 26 Jun 2017
Using Artificial Tokens to Control Languages for Multilingual Image Caption Generation Satoshi Tsutsui David J. Crandall 171 21 0 20 Jun 2017
Best of Both Worlds: Transferring Knowledge from Discriminative Learning to a Generative Visual Dialog ModelNeural Information Processing Systems (NeurIPS), 2017 Jiasen Lu A. Kannan Jianwei Yang Devi Parikh Dhruv Batra BDL 163 137 0 05 Jun 2017
NMTPY: A Flexible Toolkit for Advanced Neural Machine Translation SystemsPrague Bulletin of Mathematical Linguistics (PBML), 2017 Ozan Caglayan Mercedes García-Martínez Adrien Bardet Walid Aransa Fethi Bougares Loïc Barrault 159 65 0 01 Jun 2017
Adversarial Ranking for Language GenerationNeural Information Processing Systems (NeurIPS), 2017 Kevin Qinghong Lin Dianqi Li Xiaodong He Zhengyou Zhang Ming-Ting Sun GAN 236 345 0 31 May 2017
Multimodal Machine Learning: A Survey and Taxonomy T. Baltrušaitis Chaitanya Ahuja Louis-Philippe Morency 444 3,499 0 26 May 2017
Bidirectional Beam Search: Forward-Backward Inference in Neural Sequence Models for Fill-in-the-Blank Image Captioning Q. Sun Stefan Lee Dhruv Batra BDL 118 43 0 24 May 2017
STAIR Captions: Constructing a Large-Scale Japanese Image Caption Dataset Yuya Yoshikawa Yutaro Shigeto A. Takeuchi 3DV 155 128 0 02 May 2017
Multi-Task Video Captioning with Video and Entailment Generation Ramakanth Pasunuru Joey Tianyi Zhou 182 120 0 24 Apr 2017
Paying Attention to Descriptions Generated by Image Captioning Models Hamed R. Tavakoli Rakshith Shetty Ali Borji Jorma T. Laaksonen 244 80 0 24 Apr 2017
Skeleton Key: Image Captioning by Skeleton-Attribute Decomposition Yufei Wang Zhe Lin Xiaohui Shen Scott D. Cohen G. Cottrell 139 107 0 23 Apr 2017
Attend to You: Personalized Image Captioning with Context Sequence Memory Networks C. C. Park Byeongchang Kim Gunhee Kim 159 176 0 21 Apr 2017
Deep Reinforcement Learning-based Image Captioning with Embedding Reward Zhou Ren Xiaoyu Wang Ning Zhang Xutao Lv Li Li 126 333 0 12 Apr 2017
Creativity: Generating Diverse Questions using Variational Autoencoders Unnat Jain Ziyu Zhang Alex Schwing 143 157 0 11 Apr 2017
Egocentric Video Description based on Temporally-Linked Sequences Marc Bolaños Álvaro Peris F. Casacuberta Sergi Soler Petia Radeva EgoV 149 25 0 07 Apr 2017
Weakly Supervised Dense Video Captioning Zhiqiang Shen Jianguo Li Zhou Su Minjun Li Yurong Chen Yu-Gang Jiang Xiangyang Xue 179 140 0 05 Apr 2017
Towards a Visual Privacy Advisor: Understanding and Predicting Privacy Risks in Images Rakshith Shetty Bernt Schiele Mario Fritz 222 398 0 30 Mar 2017
Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training Rakshith Shetty Marcus Rohrbach Lisa Anne Hendricks Mario Fritz Bernt Schiele 161 13 0 30 Mar 2017
Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation Albert Gatt E. Krahmer LM&MA ELM 353 869 0 29 Mar 2017
Where to put the Image in an Image Caption Generator Marc Tanti Albert Gatt K. Camilleri 169 98 0 27 Mar 2017
Recurrent Models for Situation Recognition Arun Mallya Svetlana Lazebnik 143 33 0 18 Mar 2017
Towards Diverse and Natural Image Descriptions via a Conditional GAN Bo Dai Sanja Fidler R. Urtasun Dahua Lin GAN 208 473 0 17 Mar 2017
MAT: A Multimodal Attentive Translator for Image CaptioningInternational Joint Conference on Artificial Intelligence (IJCAI), 2017 Chang Liu F. Sun Changhu Wang Feng Wang Alan Yuille 180 59 0 18 Feb 2017
Attention-Based Multimodal Fusion for Video DescriptionIEEE International Conference on Computer Vision (ICCV), 2017 Chiori Hori Takaaki Hori Teng-Yok Lee Kazuhiro Sumi J. Hershey Tim K. Marks 308 377 0 11 Jan 2017
Context-aware Captions from Context-agnostic SupervisionComputer Vision and Pattern Recognition (CVPR), 2017 Ramakrishna Vedantam Samy Bengio Kevin Patrick Murphy Devi Parikh Gal Chechik 221 153 0 11 Jan 2017
Learning Visual N-Grams from Web DataIEEE International Conference on Computer Vision (ICCV), 2016 Ang Li Allan Jabri Armand Joulin Laurens van der Maaten VLM 250 149 0 29 Dec 2016
Understanding Image and Text Simultaneously: a Dual Vision-Language Machine Comprehension Task Nan Ding Sebastian Goodman Fei Sha Radu Soricut VLM 161 9 0 22 Dec 2016
Re-evaluating Automatic Metrics for Image CaptioningConference of the European Chapter of the Association for Computational Linguistics (EACL), 2016 Mert Kilickaya Aykut Erdem Nazli Ikizler-Cinbis Erkut Erdem 146 185 0 22 Dec 2016
An Empirical Study of Language CNN for Image CaptioningIEEE International Conference on Computer Vision (ICCV), 2016 Jiuxiang Gu G. Wang Jianfei Cai Tsuhan Chen 221 145 0 21 Dec 2016
Temporal Tessellation: A Unified Approach for Video Analysis Dotan Kaufman Gil Levi Tal Hassner Lior Wolf 146 16 0 21 Dec 2016