Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding

Variational Cross-Graph Reasoning and Adaptive Structured Semantics Learning for Compositional Temporal Grounding

22 January 2023

Yi Yang

Fei Wu

Papers citing "Variational Cross-Graph Reasoning and Adaptive Structured Semantics Learning for Compositional Temporal Grounding"

14 / 14 papers shown

Title
Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens Kaihang Pan Wang Lin Zhongqi Yue Tenglong Ao Liyu Jia Wei Zhao Juncheng Billy Li Siliang Tang Hanwang Zhang 42 1 0 20 Apr 2025
Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing Hao Fei Shengqiong Wu H. Zhang Tat-Seng Chua Shuicheng Yan 59 35 0 31 Dec 2024
HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing Jinbin Bai Wei Chow L. Yang Xiangtai Li Juncheng Billy Li H. Zhang Shuicheng Yan 101 3 0 05 Dec 2024
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea Qifan Yu Wei Chow Zhongqi Yue Kaihang Pan Yang Wu Xiaoyang Wan Juncheng Billy Li Siliang Tang H. Zhang Yueting Zhuang DiffM 95 15 0 24 Nov 2024
Towards Unified Multimodal Editing with Enhanced Knowledge Collaboration Kaihang Pan Zhaoyu Fan Juncheng Li Qifan Yu Hao Fei Siliang Tang Richang Hong Hanwang Zhang Qianru Sun KELM 26 6 0 30 Sep 2024
VISLA Benchmark: Evaluating Embedding Sensitivity to Semantic and Lexical Alterations Sri Harsha Dumpala Aman Jaiswal Chandramouli Shama Sastry E. Milios Sageev Oore Hassan Sajjad VLM CoGe 35 0 0 25 Apr 2024
HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li ... Zheqi Lv Hao Jiang Juncheng Li Siliang Tang Yueting Zhuang VLM MLLM 25 4 0 20 Mar 2024
Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning Long Qian Juncheng Billy Li Yu-hao Wu Yaobo Ye Hao Fei Tat-Seng Chua Yueting Zhuang Siliang Tang MLLM LRM 60 47 0 18 Feb 2024
Global Structure Knowledge-Guided Relation Extraction Method for Visually-Rich Document Xiangnan Chen Qianwen Xiao Juncheng Li Duo Dong Jun Lin Xiaozhong Liu Siliang Tang 32 5 0 23 May 2023
Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World Qifan Yu Juncheng Li Yuehua Wu Siliang Tang Wei Ji Yueting Zhuang 25 33 0 23 Mar 2023
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding Hu Xu Gargi Ghosh Po-Yao (Bernie) Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Florian Metze Luke Zettlemoyer Christoph Feichtenhofer CLIP VLM 245 554 0 28 Sep 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021
UnNatural Language Inference Koustuv Sinha Prasanna Parthasarathi Joelle Pineau Adina Williams 211 80 0 30 Dec 2020
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea Finn Pieter Abbeel Sergey Levine OOD 243 11,568 0 09 Mar 2017