ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided
Code-Vision Representation

ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided Code-Vision Representation

22 November 2023

Heng Ji

Papers citing "ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided Code-Vision Representation"

6 / 6 papers shown

Title
Dynamic Scene Understanding from Vision-Language Representations Shahaf Pruss Morris Alper Hadar Averbuch-Elor OCL 84 0 0 20 Jan 2025
Knowledge-augmented Few-shot Visual Relation Detection Tianyu Yu Y. Li Jiaoyan Chen Yinghui Li Haitao Zheng ... Qingbin Liu Wenqiang Liu Dongxiao Huang Bei Wu Yexin Wang 42 5 0 09 Mar 2023
Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners Zhenhailong Wang Manling Li Ruochen Xu Luowei Zhou Jie Lei ... Chenguang Zhu Derek Hoiem Shih-Fu Chang Mohit Bansal Heng Ji MLLM VLM 167 134 0 22 May 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 382 4,010 0 28 Jan 2022
ImageNet-21K Pretraining for the Masses T. Ridnik Emanuel Ben-Baruch Asaf Noy Lihi Zelnik-Manor SSeg VLM CLIP 154 676 0 22 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021