v1v2 (latest)

Unsupervised Visual-Linguistic Reference Resolution in Instructional Videos

7 March 2017

De-An Huang

Joseph J. Lim

Li Fei-Fei

Juan Carlos Niebles

ArXiv (abs)PDF HTML

Papers citing "Unsupervised Visual-Linguistic Reference Resolution in Instructional Videos"

23 / 23 papers shown

COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language BenchmarkEuropean Conference on Computer Vision (ECCV), 2024

297

05 Aug 2024

Why Not Use Your Textbook? Knowledge-Enhanced Procedure Planning of Instructional Videos

Kumaranage Ravindu Yasas Nagasinghe

Honglu Zhou

Malitha Gunawardhana

Martin Renqiang Min

Daniel Harari

Muhammad Haris Khan

304

05 Mar 2024

Reconstructing and grounding narrated instructional videos in 3D

Dimitri Zhukov

Ignacio Rocco

Ivan Laptev

Josef Sivic

Johannes L. Schnberger

Bugra Tekin

Marc Pollefeys

113

09 Sep 2021

MERLOT: Multimodal Neural Script Knowledge ModelsNeural Information Processing Systems (NeurIPS), 2021

Yejin Choi

497

437

04 Jun 2021

Video Question Answering on Screencast TutorialsInternational Joint Conference on Artificial Intelligence (IJCAI), 2020

133

02 Aug 2020

Evolving Graphical Planner: Contextual Global Planning for Vision-and-Language NavigationNeural Information Processing Systems (NeurIPS), 2020

Zhiwei Deng

Karthik Narasimhan

Olga Russakovsky

246

104

11 Jul 2020

AVLnet: Learning Audio-Visual Language Representations from Instructional Videos

...

Antonio Torralba

275

142

16 Jun 2020

A Benchmark for Structured Procedural Knowledge Extraction from Cooking Videos

Graham Neubig

150

02 May 2020

Beyond Instructional Videos: Probing for More Diverse Visual-Textual Grounding on YouTubeConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

231

29 Apr 2020

Comprehensive Instructional Video Analysis: The COIN Dataset and Performance EvaluationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2020

Yansong Tang

Jiwen Lu

Jie Zhou

217

20 Mar 2020

Action Modifiers: Learning from Adverbs in Instructional VideosComputer Vision and Pattern Recognition (CVPR), 2019

Hazel Doughty

Ivan Laptev

W. Mayol-Cuevas

Dima Damen

350

13 Dec 2019

A Case Study on Combining ASR and Visual Features for Generating Instructional Video CaptionsConference on Computational Natural Language Learning (CoNLL), 2019

184

07 Oct 2019

HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video ClipsIEEE International Conference on Computer Vision (ICCV), 2019

Antoine Miech

Dimitri Zhukov

Jean-Baptiste Alayrac

693

1,412

07 Jun 2019

Cross-task weakly supervised learning from instructional videosComputer Vision and Pattern Recognition (CVPR), 2019

Dimitri Zhukov

Jean-Baptiste Alayrac

549

298

19 Mar 2019

COIN: A Large-scale Dataset for Comprehensive Instructional Video Analysis

Jie Zhou

381

404

07 Mar 2019

How to Make a BLT Sandwich? Learning to Reason towards Understanding Web Instructional Videos

149

02 Dec 2018

Learning to Localize and Align Fine-Grained Actions to Sparse Instructions

Meera Hahn

Nataniel Ruiz

Jean-Baptiste Alayrac

Ivan Laptev

James M. Rehg

125

22 Sep 2018

Localizing Moments in Video with Temporal Language

243

174

05 Sep 2018

Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration

De-An Huang

Li Fei-Fei

Silvio Savarese

Juan Carlos Niebles

204

151

10 Jul 2018

Reward Learning from Narrated Demonstrations

219

27 Apr 2018

Automatically Extracting Action Graphs from Materials Science Synthesis Procedures

189

18 Nov 2017

Visual Reference Resolution using Attention Memory for Visual Dialog

283

125

23 Sep 2017

Localizing Moments in Video with Natural Language

441

1,143

04 Aug 2017