v1v2v3v4 (latest)

Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models

19 May 2015

Bryan A. Plummer

Liwei Wang

Christopher M. Cervantes

Papers citing "Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models"

25 / 1,325 papers shown

Utilizing Large Scale Vision and Text Datasets for Image Segmentation from Referring Expressions

Ronghang Hu

Marcus Rohrbach

Subhashini Venugopalan

Trevor Darrell

VLM

147

30 Aug 2016

Solving Visual Madlibs with Multiple Cues

213

11 Aug 2016

Modeling Context Between Objects for Referring Expression Understanding

Varun K. Nagaraja

Vlad I. Morariu

Larry S. Davis

305

231

01 Aug 2016

Top-down Neural Attention by Excitation Backprop

343

994

01 Aug 2016

SPICE: Semantic Propositional Image Caption Evaluation

448

2,175

29 Jul 2016

CUNI System for WMT16 Automatic Post-Editing and Multimodal Translation TasksConference on Machine Translation (WMT), 2016

151

23 Jun 2016

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual GroundingConference on Empirical Methods in Natural Language Processing (EMNLP), 2016

622

1,545

06 Jun 2016

Attention Correctness in Neural Image CaptioningAAAI Conference on Artificial Intelligence (AAAI), 2016

228

225

31 May 2016

Stereotyping and Bias in the Flickr30K Dataset

Emiel van Miltenburg

163

19 May 2016

Ask Your Neurons: A Deep Learning Approach to Visual Question Answering

Mateusz Malinowski

Marcus Rohrbach

Mario Fritz

247

104

09 May 2016

Attributes as Semantic Units between Natural Language and Visual Recognition

Marcus Rohrbach

VLM

126

12 Apr 2016

Automatic Annotation of Structured Facts in Images

174

02 Apr 2016

Segmentation from Natural Language Expressions

267

509

20 Mar 2016

RNN Fisher Vectors for Action Recognition and Image Annotation

Guy Lev

Gil Sadeh

Benjamin Klein

Lior Wolf

148

169

12 Dec 2015

DenseCap: Fully Convolutional Localization Networks for Dense Captioning

Justin Johnson

A. Karpathy

Li Fei-Fei

VLM

379

1,218

24 Nov 2015

Order-Embeddings of Images and Language

Ivan Vendrov

Ryan Kiros

Sanja Fidler

R. Urtasun

414

576

19 Nov 2015

Learning Deep Structure-Preserving Image-Text Embeddings

Liwei Wang

Yin Li

Svetlana Lazebnik

483

822

19 Nov 2015

Sherlock: Scalable Fact Learning in Images

211

16 Nov 2015

Natural Language Object Retrieval

338

570

13 Nov 2015

Grounding of Textual Phrases in Images by Reconstruction

Bernt Schiele

387

511

12 Nov 2015

Visual7W: Grounded Question Answering in Images

Yuke Zhu

Oliver Groth

Michael S. Bernstein

Li Fei-Fei

531

965

11 Nov 2015

Neural Module Networks

668

1,139

09 Nov 2015

Generation and Comprehension of Unambiguous Object Descriptions

725

1,562

07 Nov 2015

Multimodal Convolutional Neural Networks for Matching Image and Sentence

Lin Ma

Zhengdong Lu

Lifeng Shang

Hang Li

339

348

23 Apr 2015

Show and Tell: A Neural Image Caption GeneratorComputer Vision and Pattern Recognition (CVPR), 2014

719

6,395

17 Nov 2014