v1v2 (latest)

Jointly Cross- and Self-Modal Graph Attention Network for Query-Based Moment Localization

4 August 2020

Papers citing "Jointly Cross- and Self-Modal Graph Attention Network for Query-Based Moment Localization"

50 / 74 papers shown

Dual Learning with Dynamic Knowledge Distillation and Soft Alignment for Partially Relevant Video Retrieval

175

14 Oct 2025

FrameThinker: Learning to Think with Long Videos via Multi-Turn Frame Spotlighting

363

29 Sep 2025

ResidualViT for Efficient Temporally Dense Video Encoding

225

16 Sep 2025

Learning from Few Samples: A Novel Approach for High-Quality Malcode Generation

339

25 Aug 2025

First-place Solution for Streetscape Shop Sign Recognition Competition

Bin Wang

Li Jing

1.0K

06 Jan 2025

Activity-aware Human Mobility Prediction with Hierarchical Graph Attention Recurrent Network

659

03 Jan 2025

FlashVTG: Feature Layering and Adaptive Score Handling Network for Video Temporal GroundingIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

403

18 Dec 2024

Joint Top-Down and Bottom-Up Frameworks for 3D Visual GroundingInternational Conference on Pattern Recognition (ICPR), 2024

Yang Liu

Daizong Liu

Wei Hu

3DPC

440

21 Oct 2024

Grounding is All You Need? Dual Temporal Grounding for Video Dialog

Xun Yang

Dan Guo

Roger Zimmermann

Lizi Liao

VGen

368

08 Oct 2024

Look, Compare, Decide: Alleviating Hallucination in Large Vision-Language Models via Multi-View Multi-Path ReasoningInternational Conference on Computational Linguistics (COLING), 2024

Xiaoye Qu

Jiashuo Sun

Wei Wei

Yu Cheng

MLLM LRM

317

30 Aug 2024

Harmonizing Visual Text Comprehension and Generation

Yuan Xie

450

23 Jul 2024

Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval

436

21 Jul 2024

Context-Enhanced Video Moment Retrieval with Large Language Models

Bo Liu

328

21 May 2024

Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding

Xiaojun Chang

Meng Wang

382

21 Mar 2024

Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video Localization

Ziwei Liu

203

16 Jan 2024

Cross-modal Contrastive Learning with Asymmetric Co-attention Network for Video Moment Retrieval

326

12 Dec 2023

Correlation-Guided Query-Dependency Calibration for Video Temporal Grounding

498

15 Nov 2023

Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action UnderstandingACM Multimedia (ACM MM), 2023

Meng Wang

334

06 Nov 2023

Exploring Iterative Refinement with Diffusion Models for Video GroundingIEEE International Conference on Multimedia and Expo (ICME), 2023

337

26 Oct 2023

Dual-Path Temporal Map Optimization for Make-up Temporal Video GroundingMultimedia Systems (MS), 2023

Jia Li

Meng Wang

295

12 Sep 2023

Dense Object Grounding in 3D ScenesACM Multimedia (ACM MM), 2023

Wencan Huang

Daizong Liu

Wei Hu

287

05 Sep 2023

DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and Highlight DetectionIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2023

Henghao Zhao

Kevin Qinghong Lin

Rui Yan

Zechao Li

VGen DiffM

437

29 Aug 2023

Knowing Where to Focus: Event-aware Transformer for Video GroundingIEEE International Conference on Computer Vision (ICCV), 2023

369

102

14 Aug 2023

G2L: Semantically Aligned and Uniform Video Grounding via Geodesic and Game TheoryIEEE International Conference on Computer Vision (ICCV), 2023

449

26 Jul 2023

No-frills Temporal Video Grounding: Multi-Scale Neighboring Attention and Zoom-in Boundary Detection

Tao Gui

S. Zheng

Qin Jin

289

20 Jul 2023

A Survey on Video Moment LocalizationACM Computing Surveys (ACM CSUR), 2022

Meng Wang

415

13 Jun 2023

From Region to Patch: Attribute-Aware Foreground-Background Contrastive Learning for Fine-Grained Fashion RetrievalAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2023

252

17 May 2023

Transform-Equivariant Consistency Learning for Temporal Sentence Grounding

Weining Lu

329

06 May 2023

Boundary-Denoising for Video Activity LocalizationInternational Conference on Learning Representations (ICLR), 2023

Juan-Manuel Perez-Rua

Guohao Li

287

06 Apr 2023

You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed VideosComputer Vision and Pattern Recognition (CVPR), 2023

271

14 Mar 2023

Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal Sentence Localization in VideosIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Daizong Liu

Pan Zhou

VOS

349

02 Mar 2023

Tracking Objects and Activities with Attention for Temporal Sentence GroundingIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Zeyu Xiong

Daizong Liu

Pan Zhou

Jiahao Zhu

345

21 Feb 2023

Constraint and Union for Partially-Supervised Temporal Sentence Grounding

229

20 Feb 2023

Exploiting Auxiliary Caption for Video GroundingAAAI Conference on Artificial Intelligence (AAAI), 2023

367

15 Jan 2023

Hypotheses Tree Building for One-Shot Temporal Sentence LocalizationAAAI Conference on Artificial Intelligence (AAAI), 2023

Weining Lu

295

05 Jan 2023

Rethinking the Video Sampling and Reasoning Strategies for Temporal Sentence GroundingConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Jiahao Zhu

...

Lichao Sun

242

02 Jan 2023

MRTNet: Multi-Resolution Temporal Network for Video Sentence GroundingIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Wei Ji

213

26 Dec 2022

Multi-Modal Cross-Domain Alignment Network for Video Moment RetrievalIEEE transactions on multimedia (IEEE TMM), 2022

498

23 Sep 2022

Hierarchical Local-Global Transformer for Temporal Sentence GroundingIEEE transactions on multimedia (IEEE TMM), 2022

355

31 Aug 2022

PRVR: Partially Relevant Video RetrievalIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

348

26 Aug 2022

Can Shuffling Video Benefit Temporal Bias Problem: A Novel Training Framework for Temporal GroundingEuropean Conference on Computer Vision (ECCV), 2022

337

29 Jul 2022

Reducing the Vision and Language Bias for Temporal Sentence GroundingACM Multimedia (ACM MM), 2022

Daizong Liu

Xiaoye Qu

Wei Hu

301

27 Jul 2022

Skimming, Locating, then Perusing: A Human-Like Framework for Natural Language Video LocalizationACM Multimedia (ACM MM), 2022

Daizong Liu

Wei Hu

250

27 Jul 2022

LocVTP: Video-Text Pre-training for Temporal LocalizationEuropean Conference on Computer Vision (ECCV), 2022

236

21 Jul 2022

Gaussian Kernel-based Cross Modal Network for Spatio-Temporal Video GroundingInternational Conference on Information Photonics (ICIP), 2022

Zeyu Xiong

Daizong Liu

Technology

128

02 Jul 2022

You Need to Read Again: Multi-granularity Perception Network for Moment Retrieval in VideosAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2022

252

25 May 2022

Entity-aware and Motion-aware Transformers for Language-driven Action Localization in VideosInternational Joint Conference on Artificial Intelligence (IJCAI), 2022

Shuo Yang

Xinxiao Wu

282

12 May 2022

Towards Visual-Prompt Temporal Answering Grounding in Medical Instructional VideoIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

828

13 Mar 2022

Multi-Scale Self-Contrastive Learning with Hard Negative Mining for Weakly-Supervised Query-based Video Grounding

Shentong Mo

Daizong Liu

Wei Hu

SSL

171

08 Mar 2022

Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for Temporal Sentence GroundingIEEE transactions on multimedia (IEEE TMM), 2022

248

06 Mar 2022