DenseCap: Fully Convolutional Localization Networks for Dense Captioning

24 November 2015

Li Fei-Fei

Papers citing "DenseCap: Fully Convolutional Localization Networks for Dense Captioning"

50 / 468 papers shown

Spatial Memory for Context Reasoning in Object Detection

Xinlei Chen

Abhinav Gupta

ObjD

196

170

13 Apr 2017

Discriminative Bimodal Networks for Visual Localization and Detection with Natural Language Queries

160

12 Apr 2017

Deep Reinforcement Learning-based Image Captioning with Embedding Reward

145

333

12 Apr 2017

What's in a Question: Using Visual Questions as a Form of Supervision

Siddha Ganju

Olga Russakovsky

Abhinav Gupta

177

12 Apr 2017

Creativity: Generating Diverse Questions using Variational Autoencoders

Unnat Jain

Ziyu Zhang

Alex Schwing

193

157

11 Apr 2017

Learning Two-Branch Neural Networks for Image-Text Matching Tasks

Yin Li

269

530

11 Apr 2017

Show, Ask, Attend, and Answer: A Strong Baseline For Visual Question Answering

V. Kazemi

Ali Elqursh

OOD

156

194

11 Apr 2017

Generating Descriptions with Grounded and Co-Referenced People

Anna Rohrbach

Marcus Rohrbach

Siyu Tang

Seong Joon Oh

Bernt Schiele

572

05 Apr 2017

Weakly Supervised Dense Video Captioning

183

140

05 Apr 2017

Aligned Image-Word Representations Improve Inductive Transfer Across Vision-Language Tasks

265

02 Apr 2017

Interpretable Learning for Self-Driving Cars by Visualizing Causal Attention

Jinkyu Kim

John F. Canny

FAtt XAI OOD MILM CML

190

355

30 Mar 2017

Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation

Albert Gatt

E. Krahmer

LM&MA ELM

413

872

29 Mar 2017

Neural Ctrl-F: Segmentation-free Query-by-String Word Spotting in Handwritten Manuscript Collections

T. Wilkinson

Jonas Lindström

Anders Brun

156

22 Mar 2017

An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Learning

Fan Wu

Zhongwen Xu

Yi Yang

ObjD

124

22 Mar 2017

Recurrent Topic-Transition GAN for Visual Paragraph Generation

Xiaodan Liang

Chuang Gan

181

215

21 Mar 2017

Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning

314

430

20 Mar 2017

Deep Variation-structured Reinforcement Learning for Visual Relationship and Attribute Detection

Xiaodan Liang

Lisa Lee

Eric Xing

237

257

08 Mar 2017

Unsupervised Visual-Linguistic Reference Resolution in Instructional Videos

De-An Huang

Joseph J. Lim

Li Fei-Fei

Juan Carlos Niebles

174

07 Mar 2017

Visual Translation Embedding Network for Visual Relation DetectionComputer Vision and Pattern Recognition (CVPR), 2017

375

583

27 Feb 2017

ViP-CNN: Visual Phrase Guided Convolutional Neural Network

Yikang Li

Wanli Ouyang

Xiaogang Wang

Xiaoóu Tang

ObjD

165

23 Feb 2017

Person Search with Natural Language DescriptionComputer Vision and Pattern Recognition (CVPR), 2017

Shuang Li

247

499

19 Feb 2017

Learning to Detect Human-Object InteractionsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2017

238

579

17 Feb 2017

Gated Multimodal Units for Information FusionInternational Conference on Learning Representations (ICLR), 2017

John Arevalo

Thamar Solorio

Manuel Montes-y-Gómez

Fabio Gonzalez

669

472

07 Feb 2017

Concurrent Activity Recognition with Multimodal CNN-LSTM Structure

108

06 Feb 2017

Learning Word-Like Units from Joint Audio-Visual AnalysisAnnual Meeting of the Association for Computational Linguistics (ACL), 2017

David Harwath

James R. Glass

219

107

25 Jan 2017

Incremental Learning for Robot Perception through HRIIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2017

129

17 Jan 2017

Comprehension-guided referring expressionsComputer Vision and Pattern Recognition (CVPR), 2017

Ruotian Luo

Gregory Shakhnarovich

ObjD

199

180

12 Jan 2017

A Joint Speaker-Listener-Reinforcer Model for Referring ExpressionsComputer Vision and Pattern Recognition (CVPR), 2016

196

289

30 Dec 2016

Top-down Visual Saliency Guided by CaptionsComputer Vision and Pattern Recognition (CVPR), 2016

Vasili Ramanishka

Abir Das

Jianming Zhang

Kate Saenko

163

148

21 Dec 2016

An Empirical Study of Language CNN for Image CaptioningIEEE International Conference on Computer Vision (ICCV), 2016

Jiuxiang Gu

G. Wang

Jianfei Cai

Tsuhan Chen

253

148

21 Dec 2016

Automatic Generation of Grounded Visual QuestionsInternational Joint Conference on Artificial Intelligence (IJCAI), 2016

243

20 Dec 2016

Sparse Factorization Layers for Neural Networks with Limited Supervision

Parker A. Koch

Jason J. Corso

14 Dec 2016

ImageNet pre-trained models with batch normalization

191

170

05 Dec 2016

Multi-Label Image Classification with Regional Latent Semantic Dependencies

Junjie Zhang

Qi Wu

Chunhua Shen

Jian Zhang

Jianfeng Lu

201

177

04 Dec 2016

Areas of Attention for Image Captioning

280

215

03 Dec 2016

Training Bit Fully Convolutional Network for Fast Semantic Segmentation

Shuchang Zhou

Yuxiang Zhang

167

01 Dec 2016

Modeling Relationships in Referential Expressions with Compositional Modular Networks

189

421

30 Nov 2016

Social Scene Understanding: End-to-End Multi-Person Action Localization and Collective Activity Recognition

Timur M. Bagautdinov

Alexandre Alahi

François Fleuret

Pascal Fua

Silvio Savarese

176

231

28 Nov 2016

DeepSetNet: Predicting Sets with Deep Neural Networks

287

28 Nov 2016

Grad-CAM: Why did you say that?

Ramprasaath R. Selvaraju

Devi Parikh

341

561

22 Nov 2016

Sampled Image Tagging and Retrieval Methods on User Generated Content

179

21 Nov 2016

Dense Captioning with Joint Inference and Visual Context

214

177

21 Nov 2016

Phrase Localization and Visual Relationship Detection with Comprehensive Image-Language Cues

Bryan A. Plummer

Arun Mallya

Christopher M. Cervantes

Anjali Narayan-Chen

Svetlana Lazebnik

351

191

21 Nov 2016

A Hierarchical Approach for Generating Descriptive Image Paragraphs

Li Fei-Fei

221

400

20 Nov 2016

Recurrent Memory Addressing for describing videos

A. Jain

Abhinav Agarwalla

Kumar Krishna Agrawal

Pabitra Mitra

132

20 Nov 2016

Convolutional Gated Recurrent Networks for Video Segmentation

316

104

16 Nov 2016

Diversity encouraged learning of unsupervised LSTM ensemble for neural activity video prediction

15 Nov 2016

Zero-resource Machine Translation by Multimodal Encoder-decoder Network with Multimedia Pivot

Hideki Nakayama

Noriki Nishida

402

14 Nov 2016

Memory-augmented Attention Modelling for Videos

260

07 Nov 2016

Spatio-Temporal Attention Models for Grounded Video Captioning

M. Zanfir

Elisabeta Marinoiu

C. Sminchisescu

212

17 Oct 2016