ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided
Code-Vision Representation

ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided Code-Vision Representation

22 November 2023

Heng Ji

Papers citing "ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided Code-Vision Representation"

13 / 13 papers shown

Title
Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs Dayu Yang Tianyang Liu Daoan Zhang Antoine Simoulin Xiaoyi Liu ... Zhaopu Teng Xin Qian Grey Yang Jiebo Luo Julian McAuley ReLM OffRL LRM 81 3 0 26 Feb 2025
Dynamic Scene Understanding from Vision-Language Representations Shahaf Pruss Morris Alper Hadar Averbuch-Elor OCL 89 0 0 20 Jan 2025
Aligning LLMs with Individual Preferences via Interaction Shujin Wu May Fung Cheng Qian Jeonghwan Kim Dilek Z. Hakkani-Tür Heng Ji 26 9 0 04 Oct 2024
World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering Jiacong Wang Bohong Wu Haiyong Jiang Xun Zhou Xin Xiao Haoyuan Guo Jun Xiao VLM VGen 36 4 0 30 Sep 2024
CodeGraph: Enhancing Graph Reasoning of LLMs with Code Qiaolong Cai Zhaowei Wang Shizhe Diao James Kwok Yangqiu Song LRM 41 2 0 25 Aug 2024
CodeTaxo: Enhancing Taxonomy Expansion with Limited Examples via Code Language Prompts Qingkai Zeng Yuyang Bai Zhaoxuan Tan Zhenyu Wu Shangbin Feng Meng-Long Jiang 21 3 0 17 Aug 2024
A Single Transformer for Scalable Vision-Language Modeling Yangyi Chen Xingyao Wang Hao Peng Heng Ji LRM 40 13 0 08 Jul 2024
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents Ke Yang Jiateng Liu John Wu Chaoqi Yang Yi Ren Fung ... Xu Cao Xingyao Wang Yiquan Wang Heng Ji Chengxiang Zhai LLMAG ELM 18 71 0 01 Jan 2024
Knowledge-augmented Few-shot Visual Relation Detection Tianyu Yu Y. Li Jiaoyan Chen Yinghui Li Haitao Zheng ... Qingbin Liu Wenqiang Liu Dongxiao Huang Bei Wu Yexin Wang 44 5 0 09 Mar 2023
Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners Zhenhailong Wang Manling Li Ruochen Xu Luowei Zhou Jie Lei ... Chenguang Zhu Derek Hoiem Shih-Fu Chang Mohit Bansal Heng Ji MLLM VLM 167 134 0 22 May 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 385 4,010 0 28 Jan 2022
ImageNet-21K Pretraining for the Masses T. Ridnik Emanuel Ben-Baruch Asaf Noy Lihi Zelnik-Manor SSeg VLM CLIP 154 676 0 22 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021