v1v2v3 (latest)

Jointly Modeling Embedding and Translation to Bridge Video and Language

7 May 2015

Yingwei Pan

Tao Mei

Papers citing "Jointly Modeling Embedding and Translation to Bridge Video and Language"

50 / 199 papers shown

Use What You Have: Video Retrieval Using Representations From Collaborative ExpertsBritish Machine Vision Conference (BMVC), 2019

Yang Liu

Samuel Albanie

Arsha Nagrani

Andrew Zisserman

302

424

31 Jul 2019

Language2Pose: Natural Language Grounded Pose ForecastingInternational Conference on 3D Vision (3DV), 2019

Chaitanya Ahuja

Louis-Philippe Morency

296

337

02 Jul 2019

Trimmed Action Recognition, Dense-Captioning Events in Videos, and Spatio-temporal Action Localization with Focus on ActivityNet Challenge 2019

Yingwei Pan

131

14 Jun 2019

HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video ClipsIEEE International Conference on Computer Vision (ICCV), 2019

Antoine Miech

Dimitri Zhukov

Jean-Baptiste Alayrac

542

1,376

07 Jun 2019

Reconstruct and Represent Video Contents for Captioning via Reinforcement LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2019

Wei Zhang

Bairui Wang

Lin Ma

Wei Liu

210

03 Jun 2019

Memory-Attended Recurrent Network for Video CaptioningComputer Vision and Pattern Recognition (CVPR), 2019

259

225

10 May 2019

Multimodal Semantic Attention Network for Video CaptioningIEEE International Conference on Multimedia and Expo (ICME), 2019

Bing Li

177

08 May 2019

Temporal Deformable Convolutional Encoder-Decoder Networks for Video CaptioningAAAI Conference on Artificial Intelligence (AAAI), 2019

Yingwei Pan

Tao Mei

180

105

03 May 2019

Pointing Novel Objects in Image Captioning

Yehao Li

Ting Yao

Yingwei Pan

Hongyang Chao

Tao Mei

205

25 Apr 2019

Streamlined Dense Video Captioning

257

160

08 Apr 2019

Weakly Supervised Video Moment Retrieval From Text Queries

Niluthpol Chowdhury Mithun

S. Paul

Amit K. Roy-Chowdhury

303

212

05 Apr 2019

End-to-End Video Captioning

Silvio Olivastri

Gurkirt Singh

Fabio Cuzzolin

150

04 Apr 2019

Neural Sequential Phrase Grounding (SeqGROUND)Computer Vision and Pattern Recognition (CVPR), 2019

Pelin Dogan

Leonid Sigal

Markus Gross

ObjD

217

18 Mar 2019

M-VAD Names: a Dataset for Video Captioning with NamingMultimedia tools and applications (MTA), 2018

Lorenzo Baraldi

173

04 Mar 2019

Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video CaptioningComputer Vision and Pattern Recognition (CVPR), 2019

Nayyer Aafaq

Naveed Akhtar

Wen Liu

Syed Zulqarnain Gilani

Lin Wang

231

222

27 Feb 2019

Audio Caption: Listen and Tell

Mengyue Wu

Heinrich Dinkel

Kai Yu

259

25 Feb 2019

Read, Watch, and Move: Reinforcement Learning for Temporally Grounding Natural Language Descriptions in Videos

212

164

21 Jan 2019

Action2Vec: A Crossmodal Embedding Approach to Action Learning

Meera Hahn

Andrew Silva

James M. Rehg

196

02 Jan 2019

Not All Words are Equal: Video-specific Information Loss for Video Captioning

134

01 Jan 2019

Hierarchical LSTMs with Adaptive Attention for Visual Captioning

Jingkuan Song

Xiangpeng Li

Lianli Gao

Heng Tao Shen

169

231

26 Dec 2018

Middle-Out Decoding

Shikib Mehri

Leonid Sigal

168

28 Oct 2018

Exploring Visual Relationship for Image Captioning

Ting Yao

Yingwei Pan

Yehao Li

Tao Mei

400

897

19 Sep 2018

The ActivityNet Large-Scale Activity Recognition Challenge 2018 Summary

238

11 Aug 2018

Video Captioning with Boundary-aware Hierarchical Language Decoding and Joint Video Prediction

Xiangxi Shi

Jianfei Cai

Jiuxiang Gu

Shafiq Joty

123

08 Jul 2018

YH Technologies at ActivityNet Challenge 2018

Ting Yao

Xue Li

110

29 Jun 2018

Best Vision Technologies Submission to ActivityNet Challenge 2018-Task: Dense-Captioning Events in Videos

Yuan Liu

Moyini Yao

105

25 Jun 2018

Video Description: A Survey of Methods, Datasets and Evaluation Metrics

Nayyer Aafaq

Lin Wang

Wen Liu

Syed Zulqarnain Gilani

Mubarak Shah

486

101

01 Jun 2018

Hierarchically Structured Reinforcement Learning for Topically Coherent Visual Story Generation

246

21 May 2018

Memory Matching Networks for One-Shot Image Recognition

Yingwei Pan

Tao Mei

228

285

23 Apr 2018

Jointly Localizing and Describing Events for Dense Video Captioning

Yehao Li

Ting Yao

Yingwei Pan

Hongyang Chao

Tao Mei

172

186

23 Apr 2018

To Create What You Tell: Generating Videos from CaptionsACM Multimedia (ACM MM), 2017

Yingwei Pan

Tao Mei

226

167

23 Apr 2018

To Find Where You Talk: Temporal Sentence Localization in Video with Attention Based Location RegressionAAAI Conference on Artificial Intelligence (AAAI), 2018

Yitian Yuan

Tao Mei

Wenwu Zhu

316

358

19 Apr 2018

Learning a Text-Video Embedding from Incomplete and Heterogeneous Data

Antoine Miech

Ivan Laptev

Josef Sivic

339

244

07 Apr 2018

Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning

300

226

31 Mar 2018

Reconstruction Network for Video Captioning

220

340

30 Mar 2018

Less Is More: Picking Informative Frames for Video Captioning

168

207

05 Mar 2018

A Neural Multi-sequence Alignment TeCHnique (NeuMATCH)

Markus Gross

245

19 Feb 2018

Learning Video-Story Composition via Recurrent Neural Network

Ming-Hsuan Yang

31 Jan 2018

Video-based Sign Language Recognition without Temporal Segmentation

265

450

30 Jan 2018

Learning Semantic Concepts and Order for Image and Sentence Matching

Yan Huang

Qi Wu

Liang Wang

VLM

205

322

06 Dec 2017

A Closer Look at Spatiotemporal Convolutions for Action Recognition

Heng Wang

530

3,417

30 Nov 2017

Video Captioning via Hierarchical Reinforcement Learning

214

250

29 Nov 2017

HP-GAN: Probabilistic 3D human motion prediction via GAN

Emad Barsoum

J. Kender

Zicheng Liu

3DH

247

359

27 Nov 2017

Integrating both Visual and Audio Cues for Enhanced Video Caption

173

22 Nov 2017

Functional Map of the World

341

477

21 Nov 2017

Grounded Objects and Interactions for Video Captioning

127

16 Nov 2017

Attend and Interact: Higher-Order Object Interactions for Video Understanding

185

149

16 Nov 2017

ActivityNet Challenge 2017 Summary

186

22 Oct 2017

Anticipating Daily Intention using On-Wrist Motion Triggered Sensing

143

20 Oct 2017

Predicting Visual Features from Text for Image and Video Caption Retrieval

Jianfeng Dong

Xirong Li

Cees G. M. Snoek

236

238

05 Sep 2017