v1v2v3v4 (latest)

Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models

19 May 2015

Bryan A. Plummer

Liwei Wang

Christopher M. Cervantes

Papers citing "Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models"

50 / 1,325 papers shown

Boosted Attention: Leveraging Human Attention for Image CaptioningEuropean Conference on Computer Vision (ECCV), 2018

Shi Chen

Qi Zhao

184

18 Mar 2019

Neural Language Modeling with Visual Features

Antonios Anastasopoulos

Shankar Kumar

H. Liao

VLM

111

07 Mar 2019

Graphical Contrastive Losses for Scene Graph Parsing

510

247

07 Mar 2019

Read, Watch, and Move: Reinforcement Learning for Temporally Grounding Natural Language Descriptions in Videos

212

164

21 Jan 2019

Evaluating Text-to-Image Matching using Binary Image Selection (BISON)

Hexiang Hu

Ishan Misra

Laurens van der Maaten

171

19 Jan 2019

A Hierarchical Grocery Store Image Dataset with Visual and Semantic Labels

Marcus Klasson

Cheng Zhang

Hedvig Kjellström

141

03 Jan 2019

Grounded Video Description

330

203

17 Dec 2018

Detecting unseen visual relations using analogies

144

13 Dec 2018

PIRC Net : Using Proposal Indexing, Relationships and Context for Phrase Grounding

Rama Kovvuri

Ram Nevatia

ObjD

156

07 Dec 2018

Multi-task Learning of Hierarchical Vision-Language Representation

Duy-Kien Nguyen

Takayuki Okatani

259

03 Dec 2018

Multi-level Multimodal Common Semantic Space for Image-Phrase Grounding

Carl Vondrick

152

28 Nov 2018

From Recognition to Cognition: Visual Commonsense Reasoning

Yejin Choi

838

995

27 Nov 2018

Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions

Marcella Cornia

Lorenzo Baraldi

Rita Cucchiara

DiffM

275

196

26 Nov 2018

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language NavigationComputer Vision and Pattern Recognition (CVPR), 2018

Lei Zhang

421

601

25 Nov 2018

SEIGAN: Towards Compositional Image Generation by Simultaneously Learning to Segment, Enhance, and Inpaint

187

19 Nov 2018

Revisiting Image-Language Networks for Open-ended Phrase Detection

144

17 Nov 2018

CUNI System for the WMT18 Multimodal Translation Task

Jindřich Helcl

Jindrich Libovický

Dušan Variš

213

12 Nov 2018

Reducing Network Agnostophobia

A. Dhamija

Manuel Günther

Terrance E. Boult

AAML UQCV

390

348

09 Nov 2018

How2: A Large-scale Dataset for Multimodal Language Understanding

266

312

01 Nov 2018

Learning to Globally Edit Images with Textual Description

146

13 Oct 2018

Image Captioning as Neural Machine Translation Task in SOCKEYE

167

09 Oct 2018

A Comprehensive Survey of Deep Learning for Image Captioning

309

850

06 Oct 2018

Visual Coreference Resolution in Visual Dialog using Neural Module Networks

Devi Parikh

216

170

06 Sep 2018

TVQA: Localized, Compositional Video Question Answering

443

724

05 Sep 2018

Learning to Describe Differences Between Pairs of Similar Images

Harsh Jhamtani

Taylor Berg-Kirkpatrick

219

194

31 Aug 2018

Webly Supervised Joint Embedding for Cross-Modal Image-Text Retrieval

Niluthpol Chowdhury Mithun

Yikang Shen

Evangelos E. Papalexakis

Amit K. Roy-Chowdhury

216

23 Aug 2018

SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference

Rowan Zellers

Yonatan Bisk

Roy Schwartz

Yejin Choi

502

765

16 Aug 2018

Doubly Attentive Transformer Machine Translation

Hasan Sait Arslan

Mark Fishel

G. Anbarjafari

191

30 Jul 2018

A Pipeline for Creative Visual Storytelling

S. Lukin

Reginald L. Hobbs

Clare R. Voss

108

21 Jul 2018

Revisiting Cross Modal Retrieval

Shah Nawaz

Muhammad Kamran Janjua

Alessandro Calefati

I. Gallo

134

19 Jul 2018

Factorizable Net: An Efficient Subgraph-based Framework for Scene Graph GenerationEuropean Conference on Computer Vision (ECCV), 2018

Wanli Ouyang

251

280

29 Jun 2018

iParaphrasing: Extracting Visually Grounded Paraphrases via an Image

Chenhui Chu

Mayu Otani

Yuta Nakashima

138

12 Jun 2018

Speaker-Follower Models for Vision-and-Language Navigation

Daniel Fried

Louis-Philippe Morency

Taylor Berg-Kirkpatrick

690

562

07 Jun 2018

Video Description: A Survey of Methods, Datasets and Evaluation Metrics

Nayyer Aafaq

Lin Wang

Wen Liu

Syed Zulqarnain Gilani

Mubarak Shah

486

101

01 Jun 2018

Bilinear Attention Networks

492

995

21 May 2018

Rethinking Diversified and Discriminative Proposal Generation for Visual Grounding

Zhou Zhao

214

147

09 May 2018

Weakly-Supervised Video Object Grounding from Text by Loss Weighting and Object Interaction

Luowei Zhou

Nathan Louis

Jason J. Corso

301

101

08 May 2018

Hypothesis Only Baselines in Natural Language Inference

528

609

02 May 2018

Dialog-based Interactive Image Retrieval

387

227

01 May 2018

Imagine This! Scripts to Compositions to Videos

262

10 Apr 2018

Learning a Text-Video Embedding from Incomplete and Heterogeneous Data

Antoine Miech

Ivan Laptev

Josef Sivic

339

244

07 Apr 2018

Interpretable and Globally Optimal Prediction for Textual Grounding using Image Concepts

Jinjun Xiong

130

29 Mar 2018

Two can play this Game: Visual Dialog with Discriminative Question Generation and Answering

128

29 Mar 2018

Unsupervised Textual Grounding: Linking Words to Image Concepts

Raymond A. Yeh

Minh Do

Alex Schwing

123

29 Mar 2018

Jianwei Yang

Devi Parikh

398

458

27 Mar 2018

Video Object Segmentation with Language Referring Expressions

Anna Khoreva

Anna Rohrbach

Bernt Schiele

VOS

261

243

21 Mar 2018

Learning Unsupervised Visual Grounding Through Semantic Self-Supervision

205

17 Mar 2018

Object Captioning and Retrieval with Natural Language

Nikos G. Tsagarakis

109

16 Mar 2018

Unpaired Image Captioning by Language PivotingEuropean Conference on Computer Vision (ECCV), 2018

Jiuxiang Gu

Shafiq Joty

Jianfei Cai

G. Wang

253

14 Mar 2018

Knowledge Aided Consistency for Weakly Supervised Phrase Grounding

Kan Chen

J. Gao

Ram Nevatia

181

11 Mar 2018