TALL: Temporal Activity Localization via Language Query

5 May 2017

Papers citing "TALL: Temporal Activity Localization via Language Query"

50 / 420 papers shown

Title
SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators Rasoul Shafipour David Harrison Maxwell Horton Jeffrey Marker Houman Bedayat Sachin Mehta Mohammad Rastegari Mahyar Najibi Saman Naderiparizi MQ 48 3 0 14 Oct 2024
VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding Houlun Chen Xin Wang Hong Chen Zeyang Zhang Wei Feng Bin Huang Jia Jia Wenwu Zhu VGen 30 3 0 11 Oct 2024
Grounding is All You Need? Dual Temporal Grounding for Video Dialog You Qin Wei Ji Xinze Lan Hao Fei Xun Yang Dan Guo Roger Zimmermann Lizi Liao VGen 41 0 0 08 Oct 2024
FLOPS: Forward Learning with OPtimal Sampling Tao Ren Zishi Zhang Jinyang Jiang Guanghao Li Zeliang Zhang Mingqian Feng Yijie Peng 35 1 0 08 Oct 2024
TRACE: Temporal Grounding Video LLM via Causal Event Modeling Yongxin Guo Jingyu Liu Mingda Li Xiaoying Tang Qingbin Liu Xiaoying Tang 39 14 0 08 Oct 2024
Realizing Video Summarization from the Path of Language-based Semantic Understanding Kuan-Chen Mu Zhi-Yi Chin Wei-Chen Chiu 23 0 0 06 Oct 2024
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models Haibo Wang Zhiyang Xu Yu Cheng Shizhe Diao Yufan Zhou Yixin Cao Qifan Wang Weifeng Ge Lifu Huang 24 20 0 04 Oct 2024
Saliency-Guided DETR for Moment Retrieval and Highlight Detection Aleksandr Gordeev Vladimir Dokholyan Irina Tolstykh Maksim Kuprashevich 23 4 0 02 Oct 2024
UAL-Bench: The First Comprehensive Unusual Activity Localization Benchmark Hasnat Md Abdullah Tian Liu Kangda Wei Shu Kong Ruihong Huang 34 3 0 02 Oct 2024
ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models Mengxue Qu Xiaodong Chen Wu Liu Alicia Li Yao Zhao 44 13 0 01 Oct 2024
ViDAS: Vision-based Danger Assessment and Scoring Pranav Gupta Advith Krishnan Naman Nanda Ananth Eswar Deeksha Agarwal Pratham Gohil Pratyush Goel 16 1 0 01 Oct 2024
E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding Ye Liu Zongyang Ma Zhongang Qi Yang Wu Ying Shan Chang Wen Chen 31 16 0 26 Sep 2024
Language-based Audio Moment Retrieval Hokuto Munakata Taichi Nishimura Shota Nakada Tatsuya Komatsu 28 1 0 24 Sep 2024
ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding Minghang Zheng Jiahua Zhang Qingchao Chen Yuxin Peng Yang Liu ObjD 26 2 0 29 Aug 2024
Beyond Uncertainty: Evidential Deep Learning for Robust Video Temporal Grounding Kaijing Ma Haojian Huang Jin Chen Haodong Chen Pengliang Ji ... Han Fang Chao Ban Hao Sun Mulin. Chen Xuelong Li 37 7 0 29 Aug 2024
Training-free Video Temporal Grounding using Large-scale Pre-trained Models Minghang Zheng Xinhao Cai Qingchao Chen Yuxin Peng Yang Liu 32 4 0 29 Aug 2024
QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval Chenghua Gao Min Li Jianshuo Liu Junxing Ren Lin Chen Haoyu Liu Bo Meng Jitao Fu Wenwen Su 20 0 0 23 Aug 2024
Interpretable Long-term Action Quality Assessment Xu Dong Xinran Liu Wanqing Li Anthony Adeyemi-Ejeye Andrew Gilbert ViT 30 1 0 21 Aug 2024
Disentangle and denoise: Tackling context misalignment for video moment retrieval Kaijing Ma Han Fang Xianghao Zang Chao Ban Lanxiang Zhou Zhongjiang He Yongxiang Li Hao Sun Zerun Feng Xingsong Hou 47 1 0 14 Aug 2024
ActPrompt: In-Domain Feature Adaptation via Action Cues for Video Temporal Grounding Yubin Wang Xinyang Jiang De Cheng Dongsheng Li Cairong Zhao VLM 27 1 0 13 Aug 2024
Infusing Environmental Captions for Long-Form Video Language Grounding Hyogun Lee Soyeon Hong Mujeen Sung Jinwoo Choi 35 0 0 05 Aug 2024
SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses Chaolei Tan Zihang Lin Junfu Pu Zhongang Qi Wei-Yi Pei Zhi Qu Yexin Wang Ying Shan Wei-Shi Zheng Jianfang Hu AI4TS 43 0 0 03 Aug 2024
Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval Yiyang Jiang Wengyu Zhang Xu-Lu Zhang Xiaoyong Wei Chang Wen Chen Qing Li 46 4 0 21 Jul 2024
Multi-sentence Video Grounding for Long Video Generation Wei Feng Xin Wang Hong Chen Zeyang Zhang Wenwu Zhu DiffM 42 0 0 18 Jul 2024
Temporally Grounding Instructional Diagrams in Unconstrained Videos Jiahao Zhang Frederic Z. Zhang Cristian Rodriguez Yizhak Ben-Shabat A. Cherian Stephen Gould 39 2 0 16 Jul 2024
SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding Zixu Cheng Yujiang Pu Shaogang Gong Parisa Kordjamshidi Yu Kong AI4TS 30 0 0 06 Jul 2024
Align and Aggregate: Compositional Reasoning with Video Alignment and Answer Aggregation for Video Question-Answering Zhaohe Liao Jiangtong Li Li Niu Liqing Zhang CoGe 35 3 0 03 Jul 2024
ReXTime: A Benchmark Suite for Reasoning-Across-Time in Videos Jr-Jen Chen Yu-Chien Liao Hsi-Che Lin Yu-Chu Yu Yen-Chun Chen Yu-Chiang Frank Wang 37 10 0 27 Jun 2024
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval Weitong Cai Jiabo Huang Shaogang Gong Hailin Jin Yang Liu 39 0 0 25 Jun 2024
Localizing Events in Videos with Multimodal Queries Gengyuan Zhang Mang Ling Ada Fok Yan Xia Yansong Tang Daniel Cremers Philip H. S. Torr Volker Tresp Jindong Gu 24 1 0 14 Jun 2024
AutoTVG: A New Vision-language Pre-training Paradigm for Temporal Video Grounding Xing Zhang Jiaxi Gu Haoyu Zhao Shicong Wang Hang Xu Renjing Pei Songcen Xu Zuxuan Wu Yu-Gang Jiang 38 0 0 11 Jun 2024
2DP-2MRC: 2-Dimensional Pointer-based Machine Reading Comprehension Method for Multimodal Moment Retrieval Jiajun He T. Toda 24 0 0 10 Jun 2024
Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives Thong Nguyen Yi Bin Junbin Xiao Leigang Qu Yicong Li Jay Zhangjie Wu Cong-Duy Nguyen See-Kiong Ng Luu Anh Tuan VLM 41 9 1 09 Jun 2024
Simplify Implant Depth Prediction as Video Grounding: A Texture Perceive Implant Depth Prediction Network Xinquan Yang Xuguang Li Xiaoling Luo Leilei Zeng Yudi Zhang Linlin Shen Yongqiang Deng MedIm 38 2 0 07 Jun 2024
Hybrid-Learning Video Moment Retrieval across Multi-Domain Labels Weitong Cai Jiabo Huang S. Gong 33 3 0 03 Jun 2024
Diversifying Query: Region-Guided Transformer for Temporal Sentence Grounding Xiaolong Sun Liushuai Shi Le Wang Sanpin Zhou Kun Xia Yabing Wang Gang Hua 27 2 0 31 May 2024
Temporal Grounding of Activities using Multimodal Large Language Models Young Chol Song 38 0 0 30 May 2024
A Survey of Multimodal Large Language Model from A Data-centric Perspective Tianyi Bai Hao Liang Binwang Wan Yanran Xu Xi Li ... Ping-Chia Huang Jiulong Shan Conghui He Binhang Yuan Wentao Zhang 47 36 0 26 May 2024
Context-Enhanced Video Moment Retrieval with Large Language Models Weijia Liu Bo Miao Jiuxin Cao Xueling Zhu Bo Liu Mehwish Nasim Ajmal Saeed Mian 29 2 0 21 May 2024
Prompt When the Animal is: Temporal Animal Behavior Grounding with Positional Recovery Training Sheng Yan Xin Du Zongying Li Yi Wang Hongcang Jin Mengyuan Liu OOD VLM 27 0 0 09 May 2024
MileBench: Benchmarking MLLMs in Long Context Dingjie Song Shunian Chen Guiming Hardy Chen Fei Yu Xiang Wan Benyou Wang VLM 76 34 0 29 Apr 2024
MLP: Motion Label Prior for Temporal Sentence Localization in Untrimmed 3D Human Motions Sheng Yan Mengyuan Liu Yong Wang Yang Liu C. L. P. Chen Hong Liu 38 0 0 21 Apr 2024
Video sentence grounding with temporally global textual knowledge Cai Chen Runzhong Zhang Jianjun Gao Kejun Wu Kim-Hui Yap Yi Wang 32 0 0 21 Apr 2024
Movie101v2: Improved Movie Narration Benchmark Zihao Yue Yepeng Zhang Ziheng Wang Qin Jin VGen 27 1 0 20 Apr 2024
Task-Driven Exploration: Decoupling and Inter-Task Feedback for Joint Moment Retrieval and Highlight Detection Jin Yang Ping Wei Huan Li Ziyang Ren 40 8 0 14 Apr 2024
UniMD: Towards Unifying Moment Retrieval and Temporal Action Detection Yingsen Zeng Yujie Zhong Chengjian Feng Lin Ma 58 7 0 07 Apr 2024
SnAG: Scalable and Accurate Video Grounding Fangzhou Mu Sicheng Mo Yin Li 39 8 0 02 Apr 2024
SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding Wenrui Li Xiaopeng Hong Ruiqin Xiong Xiaopeng Fan Mamba 60 17 0 01 Apr 2024
$R^2$ -Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding Ye Liu Jixuan He Wanhua Li Junsik Kim D. Wei Hanspeter Pfister Chang Wen Chen 36 13 0 31 Mar 2024
InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding Yi Wang Kunchang Li Xinhao Li Jiashuo Yu Yinan He ... Hongjie Zhang Yifei Huang Yu Qiao Yali Wang Limin Wang 34 44 0 22 Mar 2024