v1v2v3v4 (latest)

Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models

19 May 2015

Bryan A. Plummer

Liwei Wang

Christopher M. Cervantes

Papers citing "Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models"

50 / 1,325 papers shown

DR-BiLSTM: Dependent Reading Bidirectional LSTM for Natural Language Inference

Aaditya (Adi) Prakash

Xiaoli Z. Fern

Oladimeji Farri

220

104

15 Feb 2018

TieNet: Text-Image Embedding Network for Common Thorax Disease Classification and Reporting in Chest X-rays

Xiaosong Wang

192

521

12 Jan 2018

Object Referring in Videos with Language and Human Gaze

A. Vasudevan

Dengxin Dai

Luc Van Gool

VOS

204

04 Jan 2018

Learning Semantic Concepts and Order for Image and Sentence Matching

Yan Huang

Qi Wu

Liang Wang

VLM

198

322

06 Dec 2017

Grounding Referring Expressions in Images by Variational Context

268

237

05 Dec 2017

Discriminative Learning of Open-Vocabulary Object Retrieval and Localization by Negative Phrase Augmentation

Ryota Hinami

Shiníchi Satoh

ObjD

123

27 Nov 2017

Conditional Image-Text Embedding Networks

358

124

22 Nov 2017

Excitation Backprop for RNNs

279

18 Nov 2017

Neural Motifs: Scene Graph Parsing with Global Context

Yejin Choi

300

1,098

17 Nov 2017

Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models

Jiuxiang Gu

Jianfei Cai

312

381

17 Nov 2017

Parallel Attention: A Unified Framework for Visual Object Discovery through Dialogs and Queries

Bohan Zhuang

Qi Wu

Chunhua Shen

Ian Reid

Anton Van Den Hengel

ObjD

186

143

17 Nov 2017

Grad-CAM++: Improved Visual Explanations for Deep Convolutional Networks

444

2,828

30 Oct 2017

Describing Natural Images Containing Novel Objects with Knowledge Guided Assitance

166

17 Oct 2017

Visual Reasoning with Natural Language

Stephanie Zhou

Alane Suhr

Yoav Artzi

02 Oct 2017

Predicting Visual Features from Text for Image and Video Caption Retrieval

Jianfeng Dong

Xirong Li

Cees G. M. Snoek

236

238

05 Sep 2017

Link the head to the "beak": Zero Shot Learning from Noisy Text Description at Part Precision

251

143

04 Sep 2017

VQS: Linking Segmentations to Questions and Answers for Supervised Attention in VQA and Question-Focused Semantic SegmentationIEEE International Conference on Computer Vision (ICCV), 2017

Chuang Gan

253

136

15 Aug 2017

Query-guided Regression Network with Context Policy for Phrase Grounding

Kan Chen

Rama Kovvuri

Ram Nevatia

168

145

04 Aug 2017

Localizing Moments in Video with Natural Language

410

1,111

04 Aug 2017

Discover and Learn New Objects from Documentaries

160

30 Jul 2017

Weakly-supervised learning of visual relations

190

199

29 Jul 2017

Image Pivoting for Learning Multilingual Multimodal Representations

154

24 Jul 2017

OBJ2TEXT: Generating Visually Descriptive Language from Object Layouts

Xuwang Yin

Vicente Ordonez

VLM

184

22 Jul 2017

CUNI System for the WMT17 Multimodal Translation Task

Jindřich Helcl

Jindrich Libovický

133

14 Jul 2017

Identifying Spatial Relations in Images using Convolutional Neural NetworksIEEE International Joint Conference on Neural Network (IJCNN), 2017

Mandar Haldekar

Ashwinkumar Ganesan

Tim Oates

104

13 Jun 2017

Multimodal Machine Learning: A Survey and Taxonomy

T. Baltrušaitis

Chaitanya Ahuja

Louis-Philippe Morency

584

3,662

26 May 2017

ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases

Xiaosong Wang

790

3,073

05 May 2017

TALL: Temporal Activity Localization via Language Query

496

1,004

05 May 2017

Weakly-supervised Visual Grounding of Phrases with Linguistic Structures

Fanyi Xiao

Leonid Sigal

Yong Jae Lee

169

143

03 May 2017

Spatio-temporal Person Retrieval via Natural Language Queries

227

26 Apr 2017

Learning Two-Branch Neural Networks for Image-Text Matching Tasks

Yin Li

283

531

11 Apr 2017

Detecting Visual Relationships with Deep Relational Networks

242

517

11 Apr 2017

Generating Descriptions with Grounded and Co-Referenced People

Anna Rohrbach

Marcus Rohrbach

Siyu Tang

Seong Joon Oh

Bernt Schiele

588

05 Apr 2017

Weakly Supervised Dense Video Captioning

188

140

05 Apr 2017

Aligned Image-Word Representations Improve Inductive Transfer Across Vision-Language Tasks

287

02 Apr 2017

Unsupervised Visual-Linguistic Reference Resolution in Instructional Videos

De-An Huang

Joseph J. Lim

Li Fei-Fei

Juan Carlos Niebles

188

07 Mar 2017

Visual Translation Embedding Network for Visual Relation DetectionComputer Vision and Pattern Recognition (CVPR), 2017

401

584

27 Feb 2017

On the Origin of Deep Learning

Haohan Wang

Bhiksha Raj

MedIm 3DV VLM

354

235

24 Feb 2017

Learning to Detect Human-Object InteractionsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2017

246

585

17 Feb 2017

A Joint Speaker-Listener-Reinforcer Model for Referring ExpressionsComputer Vision and Pattern Recognition (CVPR), 2016

209

289

30 Dec 2016

Top-down Visual Saliency Guided by CaptionsComputer Vision and Pattern Recognition (CVPR), 2016

Vasili Ramanishka

Abir Das

Jianming Zhang

Kate Saenko

173

148

21 Dec 2016

An Empirical Study of Language CNN for Image CaptioningIEEE International Conference on Computer Vision (ICCV), 2016

Jiuxiang Gu

G. Wang

Jianfei Cai

Tsuhan Chen

276

149

21 Dec 2016

ImageNet pre-trained models with batch normalization

198

169

05 Dec 2016

Areas of Attention for Image Captioning

298

217

03 Dec 2016

Devi Parikh

399

1,063

26 Nov 2016

Phrase Localization and Visual Relationship Detection with Comprehensive Image-Language Cues

Bryan A. Plummer

Arun Mallya

Christopher M. Cervantes

Anjali Narayan-Chen

Svetlana Lazebnik

368

191

21 Nov 2016

Instance-aware Image and Sentence Matching with Selective Multimodal LSTM

Yan Huang

Wei Wang

Liang Wang

216

229

17 Nov 2016

A Semi-supervised Framework for Image Captioning

Wenhu Chen

Aurelien Lucchi

Thomas Hofmann

215

16 Nov 2016

Dual Attention Networks for Multimodal Reasoning and Matching

Hyeonseob Nam

Jung-Woo Ha

Jeonghee Kim

232

703

02 Nov 2016

Optimizing Open-Ended Crowdsourcing: The Next Frontier in Crowdsourced Data Management

Aditya G. Parameswaran

Akash Das Sarma

Vipul Venkataraman

17 Oct 2016