DenseCap: Fully Convolutional Localization Networks for Dense Captioning

24 November 2015

Li Fei-Fei

Papers citing "DenseCap: Fully Convolutional Localization Networks for Dense Captioning"

50 / 468 papers shown

Anomaly Detection in Video Sequence with Appearance-Motion CorrespondenceIEEE International Conference on Computer Vision (ICCV), 2019

Trong-Nguyen Nguyen

J. Meunier

219

403

17 Aug 2019

U-CAM: Visual Explanation using Uncertainty based Class Activation MapsIEEE International Conference on Computer Vision (ICCV), 2019

334

17 Aug 2019

Survey on Deep Neural Networks in Speech and Vision Systems

Khan M. Iftekharuddin

3DV VLM AI4TS

369

224

16 Aug 2019

Image Captioning using Facial Expression and AttentionJournal of Artificial Intelligence Research (JAIR), 2019

Mark Dras

203

08 Aug 2019

Addressing Data Bias Problems for Chest X-ray Image Report GenerationBritish Machine Vision Conference (BMVC), 2019

152

06 Aug 2019

Logic could be learned from imagesInternational Journal of Machine Learning and Cybernetics (IJMLC), 2019

180

06 Aug 2019

Cascaded Revision Network for Novel Object Captioning

Hehe Fan

129

06 Aug 2019

Prediction and Description of Near-Future Activities in VideoComputer Vision and Image Understanding (CVIU), 2019

T. Mahmud

Mohammad Billah

Mahmudul Hasan

Amit K. Roy-Chowdhury

379

02 Aug 2019

Curiosity-driven Reinforcement Learning for Diverse Visual Paragraph GenerationACM Multimedia (ACM MM), 2019

Zi Huang

105

01 Aug 2019

ShapeCaptioner: Generative Caption Network for 3D Shapes by Learning a Mapping from Parts Detected in Multiple Views to SentencesACM Multimedia (ACM MM), 2019

185

31 Jul 2019

Real-time Visual Object Tracking with Natural Language DescriptionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2019

Guorong Li

272

26 Jul 2019

Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and MethodsJournal of Artificial Intelligence Research (JAIR), 2019

404

142

22 Jul 2019

Image Captioning with Integrated Bottom-Up and Multi-level Residual Top-Down Attention for Game Scene Understanding

135

16 Jun 2019

Speeding up VP9 Intra Encoder with Hierarchical Deep Learning Based Partition PredictionIEEE Transactions on Image Processing (TIP), 2019

Somdyuti Paul

A. Norkin

A. Bovik

127

15 Jun 2019

Improving Visual Question Answering by Referring to Generated Paragraph CaptionsAnnual Meeting of the Association for Computational Linguistics (ACL), 2019

Hyounghun Kim

Joey Tianyi Zhou

CoGe

107

14 Jun 2019

Image Captioning: Transforming Objects into WordsNeural Information Processing Systems (NeurIPS), 2019

436

545

14 Jun 2019

HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video ClipsIEEE International Conference on Computer Vision (ICCV), 2019

Antoine Miech

Dimitri Zhukov

Jean-Baptiste Alayrac

510

1,364

07 Jun 2019

Context-Aware Visual Policy Network for Fine-Grained Image CaptioningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2019

166

133

06 Jun 2019

Contextual Translation Embedding for Visual Relationship Detection and Scene Graph Generation

214

28 May 2019

Beyond Visual Semantics: Exploring the Role of Scene Text in Image UnderstandingPattern Recognition Letters (PR), 2019

190

25 May 2019

AttentionRNN: A Structured Spatial Attention MechanismIEEE International Conference on Computer Vision (ICCV), 2019

Siddhesh Khandelwal

Leonid Sigal

187

22 May 2019

Joint Object and State Recognition using Language KnowledgeInternational Conference on Information Photonics (ICIP), 2019

Ahmad Babaeian Jelodar

Yu Sun

170

13 May 2019

Image Captioning with Clause-Focused Metrics in a Multi-Modal Setting for MarketingConference on Multimedia Information Processing and Retrieval (MIPR), 2019

06 May 2019

The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision

Jiayuan Mao

Chuang Gan

Pushmeet Kohli

J. Tenenbaum

Jiajun Wu

NAI

492

780

26 Apr 2019

Challenges and Prospects in Vision and Language Research

Kushal Kafle

Robik Shrestha

Christopher Kanan

191

19 Apr 2019

A Simple Baseline for Audio-Visual Scene-Aware Dialog

Idan Schwartz

Alex Schwing

Tamir Hazan

200

11 Apr 2019

Reasoning Visual Dialogs with Structural and Partial Observations

237

119

11 Apr 2019

Modularized Textual Grounding for Counterfactual Resilience

193

07 Apr 2019

VQD: Visual Query Detection in Natural Scenes

184

04 Apr 2019

Context and Attribute Grounded Dense Captioning

135

02 Apr 2019

Recurrent Back-Projection Network for Video Super-Resolution

Muhammad Haris

Gregory Shakhnarovich

Norimichi Ukita

SupR

164

476

25 Mar 2019

Neural Sequential Phrase Grounding (SeqGROUND)Computer Vision and Pattern Recognition (CVPR), 2019

Pelin Dogan

Leonid Sigal

Markus Gross

ObjD

215

18 Mar 2019

Dense Relational Captioning: Triple-Stream Networks for Relationship-Based Captioning

Dong-Jin Kim

Jinsoo Choi

Tae-Hyun Oh

In So Kweon

325

14 Mar 2019

Learning To Follow Directions in Street ViewAAAI Conference on Artificial Intelligence (AAAI), 2019

Karl Moritz Hermann

Mateusz Malinowski

Piotr Wojciech Mirowski

289

01 Mar 2019

CHIP: Channel-wise Disentangled Interpretation of Deep Convolutional Neural Networks

150

07 Feb 2019

Linearized Multi-Sampling for Differentiable Image Transformation

217

22 Jan 2019

LayoutGAN: Generating Graphic Layouts with Wireframe Discriminators

315

261

21 Jan 2019

Visual Entailment: A Novel Task for Fine-Grained Image Understanding

356

348

20 Jan 2019

Toward Explainable Fashion Recommendation

Pongsate Tangseng

Takayuki Okatani

161

15 Jan 2019

Epipolar Geometry based Learning of Multi-view Depth and Ego-Motion from Monocular Sequences

210

23 Dec 2018

SfMLearner++: Learning Monocular Depth & Ego-Motion using Meaningful Geometric Constraints

V. Prasad

Brojeshwar Bhowmick

MDE

175

20 Dec 2018

Detecting unseen visual relations using analogies

138

13 Dec 2018

Visual Social Relationship Recognition

127

13 Dec 2018

Coarse-to-fine: A RNN-based hierarchical attention model for vehicle re-identification

Xiu-Shen Wei

Chen-Da Liu-Zhang

Lingqiao Liu

Chunhua Shen

Jianxin Wu

185

11 Dec 2018

Neural Word Search in Historical Manuscript Collections

123

06 Dec 2018

Interactive Full Image Segmentation by Considering All Regions Jointly

258

05 Dec 2018

Visual Question Answering as Reading Comprehension

Hui Li

Peng Wang

Chunhua Shen

Anton Van Den Hengel

134

29 Nov 2018

Multi-level Multimodal Common Semantic Space for Image-Phrase Grounding

Carl Vondrick

149

28 Nov 2018

MIST: Multiple Instance Spatial Transformer Network

335

26 Nov 2018

Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions

Marcella Cornia

Lorenzo Baraldi

Rita Cucchiara

DiffM

271

194

26 Nov 2018