v1v2 (latest)

Spatial-Temporal Transformer for Dynamic Scene Graph Generation

IEEE International Conference on Computer Vision (ICCV), 2021

26 July 2021

ArXiv (abs)PDF HTML Github (205★)

Papers citing "Spatial-Temporal Transformer for Dynamic Scene Graph Generation"

50 / 77 papers shown

Title
Vision Language Models Cannot Plan, but Can They Formalize? Muyu He Yuxi Zheng Y. Liu Zijian An Bill Cai Jiani Huang Lifeng Zhou Feng Liu Ziyang Li Li Zhang CoGe 204 0 0 25 Sep 2025
UNO: Unifying One-stage Video Scene Graph Generation via Object-Centric Visual Representation Learning Huy Le Nhat Chung Tung Kieu Jingkang Yang Ngan Le VOS OCL 353 1 0 07 Sep 2025
Language-Driven Object-Oriented Two-Stage Method for Scene Graph Anticipation X. Zhu Changwei Wang Haozhe Wang Xinyu Liu Fangzhen Lin 164 1 0 06 Sep 2025
Designing Memory-Augmented AR Agents for Spatiotemporal Reasoning in Personalized Task Assistance Dongwook Choi Taeyoon Kwon Dongil Yang Hyojun Kim Jinyoung Yeo 132 0 0 12 Aug 2025
EventRR: Event Referential Reasoning for Referring Video Object Segmentation Huihui Xu Jiashi Lin Haoyu Chen Junjun He Lei Zhu VOS 279 0 0 10 Aug 2025
FDSG: Forecasting Dynamic Scene Graphs Yi Yang Yuren Cong Hao Cheng Bodo Rosenhahn Michael Ying Yang AI4TS 219 0 0 02 Jun 2025
Prototype Embedding Optimization for Human-Object Interaction Detection in Livestreaming Menghui Zhang Jing Zhang Lin Yen-Chen Li Zhuo 208 0 0 28 May 2025
METOR: A Unified Framework for Mutual Enhancement of Objects and Relationships in Open-vocabulary Video Visual Relationship DetectionInternational Joint Conference on Artificial Intelligence (IJCAI), 2025 Yongqi Wang Xinxiao Wu Shuo Yang ObjD 180 0 0 10 May 2025
REVEAL: Relation-based Video Representation Learning for Video-Question-Answering Sofian Chaybouti Walid Bousselham Moritz Wolter Hilde Kuehne 828 0 0 07 Apr 2025
What can Off-the-Shelves Large Multi-Modal Models do for Dynamic Scene Graph Generation? Xuanming Cui Jaiminkumar Ashokbhai Bhoi Chionh Wei Peng Adriel Kuek Ser-Nam Lim 262 0 0 20 Mar 2025
Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual SceneComputer Vision and Pattern Recognition (CVPR), 2025 Shengqiong Wu Hao Fei Jingkang Yang Xiaochen Li Juncheng Li Hao Zhang Tat-Seng Chua 269 4 0 19 Mar 2025
Universal Scene Graph GenerationComputer Vision and Pattern Recognition (CVPR), 2025 Shengqiong Wu Hao Fei Tat-Seng Chua 359 2 0 19 Mar 2025
Video-of-Thought: Step-by-Step Video Reasoning from Perception to CognitionInternational Conference on Machine Learning (ICML), 2024 Hao Fei Shengqiong Wu Wei Ji Hao Zhang Hao Fei Yang Deng Wynne Hsu LRM VGen 377 142 0 08 Jan 2025
A Generalizable Anomaly Detection Method in Dynamic GraphsAAAI Conference on Artificial Intelligence (AAAI), 2024 Xiao Yang Xuejiao Zhao Zhiqi Shen 267 10 0 21 Dec 2024
SceneLLM: Implicit Language Reasoning in LLM for Dynamic Scene Graph GenerationPattern Recognition (Pattern Recogn.), 2024 Hang Zhang Zhuoling Li Jun Liu LRM 428 6 0 15 Dec 2024
HyperGLM: HyperGraph for Video Scene Graph Generation and AnticipationComputer Vision and Pattern Recognition (CVPR), 2024 Trong-Thuan Nguyen Pha Nguyen J. Cothren Alper Yilmaz Khoa Luu 533 7 0 27 Nov 2024
Learning to Reason Iteratively and Parallelly for Complex Visual Reasoning ScenariosNeural Information Processing Systems (NeurIPS), 2024 Shantanu Jaiswal Debaditya Roy Basura Fernando Cheston Tan ReLM LRM 323 5 0 20 Nov 2024
Towards Unbiased and Robust Spatio-Temporal Scene Graph Generation and AnticipationComputer Vision and Pattern Recognition (CVPR), 2024 Rohith Peddi Saurabh Ayush Abhay Shrivastava Parag Singla Vibhav Gogate 339 3 0 20 Nov 2024
Situational Scene Graph for Structured Human-centric Situation UnderstandingIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024 Chinthani Sugandhika Chen Li Deepu Rajan Basura Fernando 989 4 0 30 Oct 2024
Federated Transformer: Multi-Party Vertical Federated Learning on Practical Fuzzily Linked DataNeural Information Processing Systems (NeurIPS), 2024 Zhaomin Wu Junyi Hou Yiqun Diao Bingsheng He FedML 181 7 0 23 Oct 2024
A transition towards virtual representations of visual scenes Américo Pereira Pedro Carvalho Luís Côrte-Real 207 0 0 10 Oct 2024
End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal PromptingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024 Yongqi Wang Xinxiao Wu Shuo Yang Jiebo Luo 956 2 0 19 Sep 2024
AMEGO: Active Memory from long EGOcentric videosEuropean Conference on Computer Vision (ECCV), 2024 Gabriele Goletto Tushar Nagarajan Giuseppe Averta Dima Damen EgoV 220 18 0 17 Sep 2024
Box2Flow: Instance-based Action Flow Graphs from VideosInternational Conference on Pattern Recognition (ICPR), 2024 Jiatong Li Kalliopi Basioti Vladimir Pavlovic 247 0 0 30 Aug 2024
Effectively Leveraging CLIP for Generating Situational Summaries of Images and VideosInternational Journal of Computer Vision (IJCV), 2024 Dhruv Verma Debaditya Roy Basura Fernando 246 3 0 30 Jul 2024
CycleHOI: Improving Human-Object Interaction Detection with Cycle Consistency of Detection and Generation Yisen Wang Yao Teng Limin Wang DiffM 275 5 0 16 Jul 2024
CYCLO: Cyclic Graph Transformer Approach to Multi-Object Relationship Modeling in Aerial Videos Trong-Thuan Nguyen Pha Nguyen Pawan Sinha Jackson Cothren Alper Yilmaz Khoa Luu 379 7 0 03 Jun 2024
4D Panoptic Scene Graph GenerationNeural Information Processing Systems (NeurIPS), 2024 Jingkang Yang Jun Cen Wenxuan Peng Shuai Liu Fangzhou Hong Xiangtai Li Kaiyang Zhou Qifeng Chen Ziwei Liu 162 23 0 16 May 2024
AUG: A New Dataset and An Efficient Model for Aerial Image Urban Scene Graph Generation Yansheng Li Kun Li Yongjun Zhang Linlin Wang Dingwen Zhang 300 4 0 11 Apr 2024
STG-Mamba: Spatial-Temporal Graph Learning via Selective State Space Model Lincan Li Hanchen Wang Wenjie Zhang A. Coster Mamba 321 28 0 19 Mar 2024
Enhancing Human-Centered Dynamic Scene Understanding via Multiple LLMs Collaborated Reasoning Hang Zhang Wenxiao Zhang Haoxuan Qu Jun Liu 236 10 0 15 Mar 2024
Towards Scene Graph AnticipationEuropean Conference on Computer Vision (ECCV), 2024 Rohith Peddi Saksham Singh Saurabh Parag Singla Vibhav Gogate 318 7 0 07 Mar 2024
Computer Vision for Primate Behavior Analysis in the Wild Richard Vogg Timo Lüddecke Jonathan Henrich Sharmita Dey Matthias Nuske ... Alexander Gail Stefan Treue H. Scherberger Florentin Wörgötter Alexander S. Ecker 384 14 0 29 Jan 2024
TD^2-Net: Toward Denoising and Debiasing for Dynamic Scene Graph Generation Xin Lin Chong Shi Yibing Zhan Zuopeng Yang Yaqi Wu Dacheng Tao 154 1 0 23 Jan 2024
BLoad: Enhancing Neural Network Training with Efficient Sequential Data Handling Raphael Ruschel A S M Iftekhar B. S. Manjunath Suya You 161 1 0 16 Oct 2023
HOI4ABOT: Human-Object Interaction Anticipation for Human Intention Reading Collaborative roBOTsConference on Robot Learning (CoRL), 2023 Esteve Valls Mascaro Daniel Sliwowski Dongheui Lee 331 13 0 28 Sep 2023
MSG-BART: Multi-granularity Scene Graph-Enhanced Encoder-Decoder Language Model for Video-grounded Dialogue GenerationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023 Hongcheng Liu Zhe Chen Hui Li Pingjie Wang Yanfeng Wang Yu Wang VGen 151 4 0 26 Sep 2023
Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph GenerationIEEE Transactions on Image Processing (IEEE TIP), 2023 Tao Pu Tianshui Chen Hefeng Wu Yongyi Lu Liangjie Lin ViT 252 16 0 23 Sep 2023
STDG: Semi-Teacher-Student Training Paradigram for Depth-guided One-stage Scene Graph Generation Xukun Zhou Zhenbo Song Jun He Hongyan Liu Zhaoxin Fan 3DV 138 0 0 15 Sep 2023
Local-Global Information Interaction Debiasing for Dynamic Scene Graph Generation Xinyu Lyu Jingwei Liu Yuyu Guo Lianli Gao 206 1 0 10 Aug 2023
Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic Role LabelingACM Multimedia (ACM MM), 2023 Yu Zhao Hao Fei Yixin Cao Bobo Li Meishan Zhang Jianguo Wei Hao Fei Tat-Seng Chua 184 22 0 09 Aug 2023
Triple Correlations-Guided Label Supplementation for Unbiased Video Scene Graph GenerationACM Multimedia (ACM MM), 2023 Wenqing Wang Kaifeng Gao Yawei Luo Tao Jiang Fei Gao Jian Shao Jianwen Sun Jun Xiao 202 5 0 30 Jul 2023
ClipSitu: Effectively Leveraging CLIP for Conditional Predictions in Situation Recognition Debaditya Roy Dhruv Verma Basura Fernando VLM CLIP 381 8 0 02 Jul 2023
Multi-Label Meta Weighting for Long-Tailed Dynamic Scene Graph GenerationInternational Conference on Multimedia Retrieval (ICMR), 2023 Shuo Chen Yingjun Du Pascal Mettes Cees G. M. Snoek OffRL 258 5 0 16 Jun 2023
Human-Object Interaction Prediction in Videos through Gaze FollowingComputer Vision and Image Understanding (CVIU), 2023 Zhifan Ni Esteve Valls Mascaro Hyemin Ahn Dongheui Lee 195 15 0 06 Jun 2023
Deep Neural Networks in Video Human Action Recognition: A Review Zihan Wang Yang Yang Zhi Liu Y. Zheng 224 9 0 25 May 2023
Cross-Modality Time-Variant Relation Learning for Generating Dynamic Scene GraphsIEEE International Conference on Robotics and Automation (ICRA), 2023 Jingyi Wang Jinfa Huang Can Zhang Zhidong Deng 313 10 0 15 May 2023
Learning-based Relational Object Matching Across ViewsIEEE International Conference on Robotics and Automation (ICRA), 2023 Cathrin Elich So Yeon Min Ruslan Salakhutdinov Yuan-Fang Li Tom Michael Mitchell 171 6 0 03 May 2023
LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak SupervisionInternational Conference on Learning Representations (ICLR), 2023 Jiani Huang Ziyang Li Mayur Naik Ser-Nam Lim 564 9 0 15 Apr 2023
StageInteractor: Query-based Object Detector with Cross-stage InteractionIEEE International Conference on Computer Vision (ICCV), 2023 Yao Teng Haisong Liu Sheng Guo Limin Wang ObjD 283 12 0 11 Apr 2023