COIN: A Large-scale Dataset for Comprehensive Instructional Video Analysis

7 March 2019

Jie Zhou

Papers citing "COIN: A Large-scale Dataset for Comprehensive Instructional Video Analysis"

50 / 267 papers shown

Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive LearningNeural Information Processing Systems (NeurIPS), 2022

273

12 Oct 2022

Graph2Vid: Flow graph to Video Grounding for Weakly-supervised Multi-Step Localization

234

10 Oct 2022

Turbo Training with Token DropoutBritish Machine Vision Conference (BMVC), 2022

214

10 Oct 2022

EgoTaskQA: Understanding Human Tasks in Egocentric VideosNeural Information Processing Systems (NeurIPS), 2022

Baoxiong Jia

173

08 Oct 2022

Compressed Vision for Efficient Video UnderstandingAsian Conference on Computer Vision (ACCV), 2022

119

06 Oct 2022

A Closer Look at Temporal Ordering in the Segmentation of Instructional VideosBritish Machine Vision Conference (BMVC), 2022

201

30 Sep 2022

TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal SaliencyEuropean Conference on Computer Vision (ECCV), 2022

Michael Rubinstein

217

14 Aug 2022

My View is the Best View: Procedure Learning from Egocentric VideosEuropean Conference on Computer Vision (ECCV), 2022

184

22 Jul 2022

LocVTP: Video-Text Pre-training for Temporal LocalizationEuropean Conference on Computer Vision (ECCV), 2022

207

21 Jul 2022

SVGraph: Learning Semantic Graphs from Instructional VideosIEEE International Conference on Multimedia Big Data (ICMBD), 2022

Madeline Chantry Schiappa

Yogesh S Rawat

238

16 Jul 2022

Self-Supervised Learning for Videos: A SurveyACM Computing Surveys (ACM CSUR), 2022

Madeline Chantry Schiappa

Yogesh S Rawat

M. Shah

SSL

478

167

18 Jun 2022

P3IV: Probabilistic Procedure Planning from Instructional Videos with Weak SupervisionComputer Vision and Pattern Recognition (CVPR), 2022

Henghui Zhao

Isma Hadji

Nikita Dvornik

Konstantinos G. Derpanis

Richard P. Wildes

Allan D. Jepson

272

04 May 2022

MHMS: Multimodal Hierarchical Multimedia Summarization

Ding Zhao

173

07 Apr 2022

FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality AssessmentComputer Vision and Pattern Recognition (CVPR), 2022

Jie Zhou

231

141

07 Apr 2022

Long Movie Clip Classification with State-Space Video ModelsEuropean Conference on Computer Vision (ECCV), 2022

Md. Mohaiminul Islam

Gedas Bertasius

VLM

420

139

04 Apr 2022

Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural ActivitiesComputer Vision and Pattern Recognition (CVPR), 2022

Angela Yao

350

295

28 Mar 2022

Bridge-Prompt: Towards Ordinal Action Understanding in Instructional VideosComputer Vision and Pattern Recognition (CVPR), 2022

Muheng Li

Lei Chen

Yueqi Duan

Zhilan Hu

Jianjiang Feng

Jie Zhou

Jiwen Lu

161

26 Mar 2022

Weakly-Supervised Online Action Segmentation in Multi-View Instructional VideosComputer Vision and Pattern Recognition (CVPR), 2022

161

24 Mar 2022

Look for the Change: Learning Object States and State-Modifying Actions from Untrimmed Web VideosComputer Vision and Pattern Recognition (CVPR), 2022

Tomávs Souvcek

Jean-Baptiste Alayrac

Antoine Miech

Ivan Laptev

Josef Sivic

230

22 Mar 2022

Show Me More Details: Discovering Hierarchies of Procedures from Semi-structured Web DataAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

Graham Neubig

178

14 Mar 2022

When Did It Happen? Duration-informed Temporal Localization of Narrated Actions in Vlogs

217

16 Feb 2022

Learning To Recognize Procedural Activities with Distant SupervisionComputer Vision and Pattern Recognition (CVPR), 2022

Gedas Bertasius

249

26 Jan 2022

BERTHA: Video Captioning Evaluation Via Transfer-Learned Human AssessmentInternational Conference on Language Resources and Evaluation (LREC), 2022

186

25 Jan 2022

SVIP: Sequence VerIfication for Procedures in Videos

Xu Tang

327

13 Dec 2021

Learning to Align Sequential Actions in the Wild

Marc Pollefeys

226

17 Nov 2021

Induce, Edit, Retrieve: Language Grounded Multimodal Schema for Instructional Video Retrieval

261

17 Nov 2021

Hierarchical Modeling for Task Recognition and Action Segmentation in Weakly-Labeled Instructional VideosIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2021

Reza Ghoddoosian

S. Sayed

V. Athitsos

167

12 Oct 2021

Deep Learning-based Action Detection in Untrimmed Videos: A Survey

Elahe Vahdani

Yingli Tian

357

30 Sep 2021

VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding

Hu Xu

Gargi Ghosh

Po-Yao (Bernie) Huang

Florian Metze Luke Zettlemoyer Christoph Feichtenhofer

CLIP VLM

805

689

28 Sep 2021

Survey: Transformer based Video-Language Pre-training

Ludan Ruan

Qin Jin

VLM ViT

205

21 Sep 2021

Overview of Tencent Multi-modal Ads Video Understanding Challenge

144

16 Sep 2021

Drop-DTW: Aligning Common Signal Between Sequences While Dropping OutliersNeural Information Processing Systems (NeurIPS), 2021

Nikita Dvornik

Isma Hadji

Konstantinos G. Derpanis

Animesh Garg

Allan D. Jepson

159

26 Aug 2021

TACo: Token-aware Cascade Contrastive Learning for Video-Text AlignmentIEEE International Conference on Computer Vision (ICCV), 2021

Jianwei Yang

Yonatan Bisk

Jianfeng Gao

220

154

23 Aug 2021

Group-aware Contrastive Regression for Action Quality Assessment

Wenliang Zhao

Jie Zhou

172

134

17 Aug 2021

Unsupervised Discovery of Actions in Instructional VideosBritish Machine Vision Conference (BMVC), 2021

170

28 Jun 2021

JRDB-Act: A Large-scale Dataset for Spatio-temporal Action, Social Group and Activity Detection

Silvio Savarese

236

16 Jun 2021

Transferring Knowledge from Text to Video: Zero-Shot Anticipation for Procedural ActionsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

Fadime Sener

Rishabh Saraf

Angela Yao

LM&Ro

183

06 Jun 2021

VLM: Task-agnostic Video-Language Model Pre-training for Video UnderstandingFindings (Findings), 2021

Hu Xu

Gargi Ghosh

Po-Yao (Bernie) Huang

Prahal Arora

Masoumeh Aminzadeh

Christoph Feichtenhofer

Florian Metze

Luke Zettlemoyer

327

146

20 May 2021

Home Action Genome: Cooperative Compositional Action UnderstandingComputer Vision and Pattern Recognition (CVPR), 2021

115

11 May 2021

Visual Goal-Step Inference using wikiHowConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

251

12 Apr 2021

Visual Semantic Role Labeling for Video UnderstandingComputer Vision and Pattern Recognition (CVPR), 2021

290

02 Apr 2021

CUPID: Adaptive Curation of Pre-training Data for Video-and-Language Representation Learning

Lei Zhang

193

01 Apr 2021

Machine-Generated Hierarchical Structure of Human Activities to Reveal How Machines ThinkIEEE Access (IEEE Access), 2021

19 Jan 2021

Look Before you Speak: Visually Contextualized UtterancesComputer Vision and Pattern Recognition (CVPR), 2020

Paul Hongsuck Seo

Arsha Nagrani

Cordelia Schmid

311

10 Dec 2020

ActBERT: Learning Global-Local Video-Text RepresentationsComputer Vision and Pattern Recognition (CVPR), 2020

Linchao Zhu

Yi Yang

ViT

324

451

14 Nov 2020

Toyota Smarthome Untrimmed: Real-World Untrimmed Videos for Activity DetectionIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2020

258

28 Oct 2020

Equivalent Classification Mapping for Weakly Supervised Temporal Action Localization

Tao Zhao

Junwei Han

Le Yang

Dingwen Zhang

174

18 Aug 2020

LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task ActivitiesEuropean Conference on Computer Vision (ECCV), 2020

Baoxiong Jia

146

31 Jul 2020

Weakly Supervised Temporal Action Localization with Segment-Level Labels

Xinpeng Ding

Nannan Wang

Xinbo Gao

Jie Li

Xiaoyu Wang

Tongliang Liu

140

03 Jul 2020

The IKEA ASM Dataset: Understanding People Assembling Furniture through Actions, Objects and Pose

Yizhak Ben-Shabat

Xin Yu

F. Saleh

Dylan Campbell

Cristian Rodriguez-Opazo

Hongdong Li

Stephen Gould

208

143

01 Jul 2020