TALL: Temporal Activity Localization via Language Query

5 May 2017

Papers citing "TALL: Temporal Activity Localization via Language Query"

50 / 420 papers shown

Title
Regularized Two-Branch Proposal Networks for Weakly-Supervised Moment Retrieval in Videos Zhu Zhang Zhijie Lin Zhou Zhao Jieming Zhu Xiuqiang He 14 69 0 19 Aug 2020
Object-Aware Multi-Branch Relation Networks for Spatio-Temporal Video Grounding Zhu Zhang Zhou Zhao Zhijie Lin Baoxing Huai Jing Yuan 18 34 0 16 Aug 2020
Fine-grained Iterative Attention Network for TemporalLanguage Localization in Videos Xiaoye Qu Peng Tang Zhikang Zhou Yu Cheng Jianfeng Dong Pan Zhou 13 90 0 06 Aug 2020
Jointly Cross- and Self-Modal Graph Attention Network for Query-Based Moment Localization Daizong Liu Xiaoye Qu Xiao-Yang Liu Jianfeng Dong Pan Zhou Zichuan Xu 26 129 0 04 Aug 2020
Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos Shaoxiang Chen Wenhao Jiang Wei Liu Yu-Gang Jiang 23 101 0 28 Jul 2020
Graph Neural Network for Video Relocalization Yuanen Zhou Mingfei Wang Ruolin Wang Shuwei Huo 14 0 0 20 Jul 2020
Modality Shifting Attention Network for Multi-modal Video Question Answering Junyeong Kim Minuk Ma T. Pham Kyungsu Kim Chang-Dong Yoo 12 72 0 04 Jul 2020
Weak Supervision and Referring Attention for Temporal-Textual Association Learning Zhiyuan Fang Shu Kong Zhe Wang Charless C. Fowlkes Yezhou Yang 12 16 0 21 Jun 2020
Language Guided Networks for Cross-modal Moment Retrieval Kun Liu Huadong Ma Chuang Gan 23 2 0 18 Jun 2020
Video Moment Localization using Object Evidence and Reverse Captioning Madhawa Vidanapathirana Supriya Pandhre Sonia Raychaudhuri Anjali Khurana 6 1 0 18 Jun 2020
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA Hyounghun Kim Zineng Tang Mohit Bansal 17 31 0 13 May 2020
A Benchmark for Structured Procedural Knowledge Extraction from Cooking Videos Frank F. Xu Lei Ji Botian Shi Junyi Du Graham Neubig Yonatan Bisk Nan Duan 17 21 0 02 May 2020
HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training Linjie Li Yen-Chun Chen Yu Cheng Zhe Gan Licheng Yu Jingjing Liu MLLM VLM OffRL AI4TS 41 492 0 01 May 2020
Span-based Localizing Network for Natural Language Video Localization Hao Zhang Aixin Sun Wei Jing Joey Tianyi Zhou 15 311 0 29 Apr 2020
Inferring Temporal Compositions of Actions Using Probabilistic Automata Rodrigo Santa Cruz A. Cherian Basura Fernando Dylan Campbell Stephen Gould 13 2 0 28 Apr 2020
Multiple Visual-Semantic Embedding for Video Retrieval from Query Sentence Huy Manh Nguyen Tomo Miyazaki Yoshihiro Sugaya S. Omachi 34 1 0 16 Apr 2020
Local-Global Video-Text Interactions for Temporal Grounding Jonghwan Mun Minsu Cho Bohyung Han 20 267 0 16 Apr 2020
YouMakeup VQA Challenge: Towards Fine-grained Action Understanding in Domain-Specific Videos Shizhe Chen Weiying Wang Ludan Ruan Linli Yao Qin Jin 20 3 0 12 Apr 2020
Dense Regression Network for Video Grounding Runhao Zeng Haoming Xu Wenbing Huang Peihao Chen Mingkui Tan Chuang Gan 11 283 0 07 Apr 2020
Sub-Instruction Aware Vision-and-Language Navigation Yicong Hong Cristian Rodriguez-Opazo Qi Wu Stephen Gould 11 69 0 06 Apr 2020
VIOLIN: A Large-Scale Dataset for Video-and-Language Inference J. Liu Wenhu Chen Yu Cheng Zhe Gan Licheng Yu Yiming Yang Jingjing Liu MLLM VGen 35 68 0 25 Mar 2020
Weakly-Supervised Multi-Level Attentional Reconstruction Network for Grounding Textual Queries in Videos Yijun Song Jingwen Wang Lin Ma Zhou Yu Jun Yu 21 61 0 16 Mar 2020
Mi YouTube es Su YouTube? Analyzing the Cultures using YouTube Thumbnails of Popular Videos Songyang Zhang Tolga Aktas Jiebo Luo 6 5 0 27 Jan 2020
Look Closer to Ground Better: Weakly-Supervised Temporal Grounding of Sentence in Video Zhenfang Chen Lin Ma Wenhan Luo Peng Tang Kwan-Yee Kenneth Wong 4 68 0 25 Jan 2020
TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval Jie Lei Licheng Yu Tamara L. Berg Mohit Bansal 108 275 0 24 Jan 2020
Zero-Shot Activity Recognition with Videos Evin Pınar Örnek 6 1 0 22 Jan 2020
Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences Zhu Zhang Zhou Zhao Yang Zhao Qi. Wang Huasheng Liu Lianli Gao 15 111 0 19 Jan 2020
Tree-Structured Policy based Progressive Reinforcement Learning for Temporally Language Grounding in Video Jie Wu Guanbin Li Si Liu Liang Lin OffRL 18 104 0 18 Jan 2020
Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language Songyang Zhang Houwen Peng Jianlong Fu Jiebo Luo 13 462 0 08 Dec 2019
Compositional Temporal Visual Grounding of Natural Language Event Descriptions Jonathan C. Stroud Ryan McCaffrey Rada Mihalcea Jia Deng Olga Russakovsky 17 4 0 04 Dec 2019
Weakly-Supervised Video Moment Retrieval via Semantic Completion Network Zhijie Lin Zhou Zhao Zhu Zhang Qi. Wang Huasheng Liu 16 149 0 19 Nov 2019
Semantic Conditioned Dynamic Modulation for Temporal Sentence Grounding in Videos Yitian Yuan Lin Ma Jingwen Wang Wei Liu Wenwu Zhu 16 242 0 31 Oct 2019
Rekall: Specifying Video Events using Compositions of Spatiotemporal Labels Daniel Y. Fu Will Crichton James Hong Xinwei Yao Haotian Zhang A. Truong A. Narayan Maneesh Agrawala Christopher Ré Kayvon Fatahalian 11 48 0 07 Oct 2019
CLEVRER: CoLlision Events for Video REpresentation and Reasoning Kexin Yi Yuta Saito Yunzhu Li Pushmeet Kohli Jiajun Wu Antonio Torralba J. Tenenbaum NAI 32 456 0 03 Oct 2019
LoGAN: Latent Graph Co-Attention Network for Weakly-Supervised Video Moment Retrieval Reuben Tan Huijuan Xu Kate Saenko Bryan A. Plummer 25 67 0 27 Sep 2019
Watch, Listen and Tell: Multi-modal Weakly Supervised Dense Event Captioning Tanzila Rahman Bicheng Xu Leonid Sigal 25 77 0 22 Sep 2019
Temporally Grounding Language Queries in Videos by Contextual Boundary-aware Prediction Jingwen Wang Lin Ma Wenhao Jiang 15 180 0 11 Sep 2019
WSLLN: Weakly Supervised Natural Language Localization Networks M. Gao L. Davis R. Socher Caiming Xiong 11 80 0 31 Aug 2019
Proposal-free Temporal Moment Localization of a Natural-Language Query in Video using Guided Attention Cristian Rodriguez-Opazo Edison Marrese-Taylor F. Saleh Hongdong Li Stephen Gould 14 147 0 20 Aug 2019
Sentence Specified Dynamic Video Thumbnail Generation Yiitan Yuan Lin Ma Wenwu Zhu 13 30 0 12 Aug 2019
Exploiting Temporal Relationships in Video Moment Localization with Natural Language Songyang Zhang Jinsong Su Jiebo Luo 12 74 0 11 Aug 2019
Finding Moments in Video Collections Using Natural Language Victor Escorcia Mattia Soldan Josef Sivic Bernard Ghanem Bryan C. Russell 23 6 0 30 Jul 2019
Localizing Unseen Activities in Video via Image Query Zhu Zhang Zhou Zhao Zhijie Lin Jingkuan Song Deng Cai ViT 16 13 0 28 Jun 2019
Cross-Modal Interaction Networks for Query-Based Moment Retrieval in Videos Zhu Zhang Zhijie Lin Zhou Zhao Zhenxin Xiao 11 212 0 06 Jun 2019
Gaining Extra Supervision via Multi-task learning for Multi-Modal Video Question Answering Junyeong Kim Minuk Ma Kyungsu Kim Sungjin Kim Chang-Dong Yoo 13 27 0 28 May 2019
Spatio-temporal Video Re-localization by Warp LSTM Yang Feng Lin Ma Wei Liu Jiebo Luo 16 38 0 10 May 2019
TVQA+: Spatio-Temporal Grounding for Video Question Answering Jie Lei Licheng Yu Tamara L. Berg Mohit Bansal 28 227 0 25 Apr 2019
Tripping through time: Efficient Localization of Activities in Videos Meera Hahn Asim Kadav James M. Rehg H. Graf 12 85 0 22 Apr 2019
Referring to Objects in Videos using Spatio-Temporal Identifying Descriptions Peratham Wiriyathammabhum Abhinav Shrivastava Vlad I. Morariu L. Davis 9 4 0 08 Apr 2019
Weakly Supervised Video Moment Retrieval From Text Queries Niluthpol Chowdhury Mithun S. Paul A. Roy-Chowdhury 22 192 0 05 Apr 2019