Dense-Captioning Events in Videos

2 May 2017

Li Fei-Fei

Papers citing "Dense-Captioning Events in Videos"

34 / 234 papers shown

Title
Rescaling Egocentric Vision Dima Damen Hazel Doughty G. Farinella Antonino Furnari Evangelos Kazakos ... Davide Moltisanti Jonathan Munro Toby Perrett Will Price Michael Wray EgoV 19 436 0 23 Jun 2020
MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning Jie Lei Liwei Wang Yelong Shen Dong Yu Tamara L. Berg Joey Tianyi Zhou 21 186 0 11 May 2020
Condensed Movies: Story Based Retrieval with Contextual Embeddings Max Bain Arsha Nagrani A. Brown Andrew Zisserman 39 100 0 08 May 2020
HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training Linjie Li Yen-Chun Chen Yu Cheng Zhe Gan Licheng Yu Jingjing Liu MLLM VLM OffRL AI4TS 43 493 0 01 May 2020
Span-based Localizing Network for Natural Language Video Localization Hao Zhang Aixin Sun Wei Jing Qiufeng Wang 32 311 0 29 Apr 2020
Local-Global Video-Text Interactions for Temporal Grounding Jonghwan Mun Minsu Cho Bohyung Han 25 267 0 16 Apr 2020
Multi-modal Dense Video Captioning Vladimir E. Iashin Esa Rahtu 22 164 0 17 Mar 2020
Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning Zhiyuan Fang Tejas Gokhale Pratyay Banerjee Chitta Baral Yezhou Yang 15 60 0 11 Mar 2020
TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval Jie Lei Licheng Yu Tamara L. Berg Joey Tianyi Zhou 119 275 0 24 Jan 2020
Tree-Structured Policy based Progressive Reinforcement Learning for Temporally Language Grounding in Video Jie Wu Guanbin Li Si Liu Liang Lin OffRL 18 104 0 18 Jan 2020
Spatio-Temporal Ranked-Attention Networks for Video Captioning A. Cherian Jue Wang Chiori Hori Tim K. Marks AI4TS 22 19 0 17 Jan 2020
Action Genome: Actions as Composition of Spatio-temporal Scene Graphs Jingwei Ji Ranjay Krishna Li Fei-Fei Juan Carlos Niebles 39 335 0 15 Dec 2019
Action Modifiers: Learning from Adverbs in Instructional Videos Hazel Doughty Ivan Laptev W. Mayol-Cuevas Dima Damen 15 30 0 13 Dec 2019
Semantic Conditioned Dynamic Modulation for Temporal Sentence Grounding in Videos Yitian Yuan Lin Ma Jingwen Wang Wei Liu Wenwu Zhu 27 242 0 31 Oct 2019
Cross-Lingual Vision-Language Navigation An Yan Qing Guo Jiangtao Feng Lei Li William Yang Wang LM&Ro 32 16 0 24 Oct 2019
A Graph-Based Framework to Bridge Movies and Synopses Yu Xiong Chengyi Zhang Lingfeng Guo Hang Zhou Bolei Zhou Dahua Lin 27 60 0 24 Oct 2019
Watch, Listen and Tell: Multi-modal Weakly Supervised Dense Event Captioning Tanzila Rahman Bicheng Xu Leonid Sigal 30 77 0 22 Sep 2019
Proposal-free Temporal Moment Localization of a Natural-Language Query in Video using Guided Attention Cristian Rodriguez-Opazo Edison Marrese-Taylor F. Saleh Hongdong Li Stephen Gould 22 147 0 20 Aug 2019
Use What You Have: Video Retrieval Using Representations From Collaborative Experts Yang Liu Samuel Albanie Arsha Nagrani Andrew Zisserman 36 387 0 31 Jul 2019
Open-Ended Long-Form Video Question Answering via Hierarchical Convolutional Self-Attention Networks Zhu Zhang Zhou Zhao Zhijie Lin Jingkuan Song Xiaofei He BDL 21 14 0 28 Jun 2019
Unsupervised Label Noise Modeling and Loss Correction Eric Arazo Sanchez Diego Ortego Paul Albert Noel E. O'Connor Kevin McGuinness NoLa 41 602 0 25 Apr 2019
VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research Xin Eric Wang Jiawei Wu Junkun Chen Lei Li Yuan-fang Wang William Yang Wang 32 540 0 06 Apr 2019
COIN: A Large-scale Dataset for Comprehensive Instructional Video Analysis Yansong Tang Dajun Ding Yongming Rao Yu Zheng Danyang Zhang Lili Zhao Jiwen Lu Jie Zhou 16 304 0 07 Mar 2019
Audio-Visual Scene-Aware Dialog Huda AlAmri Vincent Cartillier Abhishek Das Jue Wang A. Cherian ... Tim K. Marks Chiori Hori Peter Anderson Stefan Lee Devi Parikh VGen 23 189 0 25 Jan 2019
Grounded Video Description Luowei Zhou Yannis Kalantidis Xinlei Chen Jason J. Corso Marcus Rohrbach 27 190 0 17 Dec 2018
Weakly Supervised Dense Event Captioning in Videos Xuguang Duan Wen-bing Huang Chuang Gan Jingdong Wang Wenwu Zhu Junzhou Huang 33 148 0 10 Dec 2018
TVQA: Localized, Compositional Video Question Answering Muhammad Abdul Wahab Licheng Yu Mounir Nasr Allah Tamara L. Berg 34 616 0 05 Sep 2018
The ActivityNet Large-Scale Activity Recognition Challenge 2018 Summary Guohao Li Juan Carlos Niebles Cees G. M. Snoek Fabian Caba Heilbron Humam Alwassel Victor Escorcia Ranjay Krishna S. Buch Cuong Duc Dao 42 65 0 11 Aug 2018
Equal But Not The Same: Understanding the Implicit Relationship Between Persuasive Images and Text Mingda Zhang R. Hwa Adriana Kovashka 16 54 0 21 Jul 2018
RUC+CMU: System Report for Dense Captioning Events in Videos Shizhe Chen Yuqing Song Yida Zhao Jiarong Qiu Qin Jin Alexander G. Hauptmann 14 7 0 22 Jun 2018
Jointly Localizing and Describing Events for Dense Video Captioning Yehao Li Ting Yao Yingwei Pan Hongyang Chao Tao Mei 19 168 0 23 Apr 2018
SoccerNet: A Scalable Dataset for Action Spotting in Soccer Videos Silvio Giancola Mohieddine Amine Tarek Dghaily Guohao Li AI4TS 21 193 0 12 Apr 2018
Weakly-Supervised Action Segmentation with Iterative Soft Boundary Assignment Li Ding Chenliang Xu 22 180 0 28 Mar 2018
The "something something" video database for learning and evaluating visual common sense Raghav Goyal Samira Ebrahimi Kahou Vincent Michalski Joanna Materzynska S. Westphal ... Moritz Mueller-Freitag F. Hoppe Christian Thurau Ingo Bax Roland Memisevic VLM 15 1,494 0 13 Jun 2017