TALL: Temporal Activity Localization via Language Query

5 May 2017

Papers citing "TALL: Temporal Activity Localization via Language Query"

50 / 420 papers shown

Title
Animal Kingdom: A Large and Diverse Dataset for Animal Behavior Understanding Xun Long Ng Kian Eng Ong Qichen Zheng Yun Ni S. Yeo J. Liu VGen 14 81 0 18 Apr 2022
Position-aware Location Regression Network for Temporal Video Grounding Sunoh Kim Kimin Yun J. Choi 22 4 0 12 Apr 2022
Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal Grounding Ziyue Wu Junyu Gao Shucheng Huang Changsheng Xu 23 4 0 04 Apr 2022
GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval Yuxuan Wang Difei Gao Licheng Yu Stan Weixian Lei Matt Feiszli Mike Zheng Shou 9 24 0 01 Apr 2022
TubeDETR: Spatio-Temporal Video Grounding with Transformers Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 28 94 0 30 Mar 2022
AxIoU: An Axiomatically Justified Measure for Video Moment Retrieval Riku Togashi Mayu Otani Yuta Nakashima Esa Rahtu J. Heikkilä T. Sakai 24 0 0 30 Mar 2022
Searching for fingerspelled content in American Sign Language Bowen Shi D. Brentari G. Shakhnarovich Karen Livescu 22 5 0 24 Mar 2022
Compositional Temporal Grounding with Structured Variational Cross-Graph Correspondence Learning Juncheng Li Junlin Xie Long Qian Linchao Zhu Siliang Tang Fei Wu Yi Yang Yueting Zhuang X. Wang 31 73 0 24 Mar 2022
UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval and Highlight Detection Ye Liu Siyuan Li Yang Wu C. Chen Ying Shan Xiaohu Qie ViT 6 139 0 23 Mar 2022
How Do You Do It? Fine-Grained Action Understanding with Pseudo-Adverbs Hazel Doughty Cees G. M. Snoek 22 19 0 23 Mar 2022
Towards Visual-Prompt Temporal Answering Grounding in Medical Instructional Video Bin Li Yixuan Weng Bin Sun Shutao Li 27 24 0 13 Mar 2022
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach Xiaohan Lan Yitian Yuan Xin Eric Wang Long Chen Zhi Wang Lin Ma Wenwu Zhu CML 19 15 0 10 Mar 2022
Multi-Scale Self-Contrastive Learning with Hard Negative Mining for Weakly-Supervised Query-based Video Grounding Shentong Mo Daizong Liu Wei Hu SSL 16 6 0 08 Mar 2022
Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for Temporal Sentence Grounding Daizong Liu Xiang Fang Wei Hu Pan Zhou 15 37 0 06 Mar 2022
When Did It Happen? Duration-informed Temporal Localization of Narrated Actions in Vlogs Oana Ignat Santiago Castro Yuhang Zhou Jiajun Bao Dandan Shan Rada Mihalcea 18 3 0 16 Feb 2022
Explore-And-Match: Bridging Proposal-Based and Proposal-Free With Transformer for Sentence Grounding in Videos Sangmin Woo Jinyoung Park Inyong Koo Sumin Lee Minki Jeong Changick Kim 33 3 0 25 Jan 2022
Temporal Sentence Grounding in Videos: A Survey and Future Directions Hao Zhang Aixin Sun Wei Jing Joey Tianyi Zhou 3DGS 36 38 0 20 Jan 2022
Unsupervised Temporal Video Grounding with Deep Semantic Clustering Daizong Liu Xiaoye Qu Yinzhen Wang Xing Di Kai Zou Yu Cheng Zichuan Xu Pan Zhou 28 51 0 14 Jan 2022
Learning Sample Importance for Cross-Scenario Video Temporal Grounding P. Bao Yadong Mu 27 13 0 08 Jan 2022
Exploring Motion and Appearance Information for Temporal Sentence Grounding Daizong Liu Xiaoye Qu Pan Zhou Yang Liu 19 41 0 03 Jan 2022
Memory-Guided Semantic Learning Network for Temporal Sentence Grounding Daizong Liu Xiaoye Qu Xing Di Yu Cheng Zichuan Xu Pan Zhou 25 58 0 03 Jan 2022
LocFormer: Enabling Transformers to Perform Temporal Moment Localization on Long Untrimmed Videos With a Feature Sampling Approach Cristian Rodriguez-Opazo Edison Marrese-Taylor Basura Fernando Hiroya Takamura Qi Wu ViT 11 3 0 19 Dec 2021
Progressive Attention on Multi-Level Dense Difference Maps for Generic Event Boundary Detection Jiaqi Tang Zhaoyang Liu Chao Qian Wayne Wu Limin Wang 15 17 0 09 Dec 2021
Classification-Then-Grounding: Reformulating Video Scene Graphs as Temporal Bipartite Graphs Kaifeng Gao Long Chen Yulei Niu Jian Shao Jun Xiao 13 29 0 08 Dec 2021
SNEAK: Synonymous Sentences-Aware Adversarial Attack on Natural Language Video Localization Wenbo Gou Wen Shi Jian Lou Lijie Huang Pan Zhou Ruixuan Li AAML 23 2 0 08 Dec 2021
MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions Mattia Soldan Alejandro Pardo Juan Carlos León Alcázar Fabian Caba Heilbron Chen Zhao Silvio Giancola Bernard Ghanem VGen 39 95 0 01 Dec 2021
AssistSR: Task-oriented Video Segment Retrieval for Personal AI Assistant Stan Weixian Lei Difei Gao Yuxuan Wang Dongxing Mao Zihan Liang L. Ran Mike Zheng Shou 13 8 0 30 Nov 2021
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling Tsu-jui Fu Linjie Li Zhe Gan Kevin Qinghong Lin W. Wang Lijuan Wang Zicheng Liu VLM 36 216 0 24 Nov 2021
Exploring Segment-level Semantics for Online Phase Recognition from Surgical Videos Xinpeng Ding Xiaomeng Li 11 33 0 22 Nov 2021
Towards Debiasing Temporal Sentence Grounding in Video Hao Zhang Aixin Sun Wei Jing Joey Tianyi Zhou 48 16 0 08 Nov 2021
Multi-scale 2D Representation Learning for weakly-supervised moment retrieval Ding Li Rui Wu Yongqiang Tang Zhizhong Zhang Wensheng Zhang 19 2 0 04 Nov 2021
Hierarchical Deep Residual Reasoning for Temporal Moment Localization Ziyang Ma Xianjing Han Xuemeng Song Yiran Cui Liqiang Nie 13 9 0 31 Oct 2021
Visual Keyword Spotting with Attention Prajwal K R Liliane Momeni Triantafyllos Afouras Andrew Zisserman 11 13 0 29 Oct 2021
Video and Text Matching with Conditioned Embeddings Ameen Ali Idan Schwartz Tamir Hazan Lior Wolf 83 13 0 21 Oct 2021
Multi-Modal Interaction Graph Convolutional Network for Temporal Language Localization in Videos Zongmeng Zhang Xianjing Han Xuemeng Song Yan Yan Liqiang Nie 33 36 0 12 Oct 2021
Relation-aware Video Reading Comprehension for Temporal Language Grounding Jialin Gao Xin Sun Mengmeng Xu Xi Zhou Bernard Ghanem 11 47 0 12 Oct 2021
Weakly Supervised Human-Object Interaction Detection in Video via Contrastive Spatiotemporal Regions Shuang Li Yilun Du Antonio Torralba Josef Sivic Bryan C. Russell 54 15 0 07 Oct 2021
Self-supervised Learning for Semi-supervised Temporal Language Grounding Fan Luo Shaoxiang Chen Jingjing Chen Zuxuan Wu Yu-Gang Jiang VLM 49 11 0 23 Sep 2021
End-to-End Dense Video Grounding via Parallel Regression Fengyuan Shi Weilin Huang Limin Wang 37 10 0 23 Sep 2021
Natural Language Video Localization with Learnable Moment Proposals Shaoning Xiao Long Chen Jian Shao Yueting Zhuang Jun Xiao 9 43 0 22 Sep 2021
CONQUER: Contextual Query-aware Ranking for Video Corpus Moment Retrieval Zhijian Hou Chong-Wah Ngo W. Chan 16 38 0 21 Sep 2021
A Survey on Temporal Sentence Grounding in Videos Xiaohan Lan Yitian Yuan Xin Eric Wang Zhi Wang Wenwu Zhu 27 47 0 16 Sep 2021
Progressively Guide to Attend: An Iterative Alignment Framework for Temporal Sentence Grounding Daizong Liu Xiaoye Qu Pan Zhou 16 46 0 14 Sep 2021
Adaptive Proposal Generation Network for Temporal Sentence Localization in Videos Daizong Liu Xiaoye Qu Jianfeng Dong Pan Zhou 20 54 0 14 Sep 2021
On Pursuit of Designing Multi-modal Transformer for Video Grounding Meng Cao Long Chen Mike Zheng Shou Can Zhang Yuexian Zou 16 80 0 13 Sep 2021
Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding Zhenzhi Wang Limin Wang Tao Wu Tianhao Li Gangshan Wu AI4TS 28 116 0 10 Sep 2021
EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery Generation Yanjun Gao Lulu Liu Jason Wang Xin Chen Huayan Wang Rui Zhang 23 1 0 10 Sep 2021
Learning to Combine the Modalities of Language and Video for Temporal Moment Localization Jungkyoo Shin Jinyoung Moon 17 8 0 07 Sep 2021
Zero-shot Natural Language Video Localization Jinwoo Nam Daechul Ahn Dongyeop Kang S. Ha Jonghyun Choi 89 43 0 29 Aug 2021
Support-Set Based Cross-Supervision for Video Grounding Xinpeng Ding N. Wang Shiwei Zhang De-Chun Cheng Xiaomeng Li Ziyuan Huang Mingqian Tang Xinbo Gao 33 42 0 24 Aug 2021