Do Vision-Language Pretrained Models Learn Composable Primitive Concepts?

31 March 2022

Papers citing "Do Vision-Language Pretrained Models Learn Composable Primitive Concepts?"

20 / 20 papers shown

Title
Attribute-formed Class-specific Concept Space: Endowing Language Bottleneck Model with Better Interpretability and Scalability Jianyang Zhang Qianli Luo Guowu Yang Wenjing Yang Weide Liu Guosheng Lin Fengmao Lv 54 0 0 26 Mar 2025
Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models Davide Berasi Matteo Farina Massimiliano Mancini Elisa Ricci Nicola Strisciuglio CoGe 66 0 0 21 Mar 2025
Model-agnostic Coreset Selection via LLM-based Concept Bottlenecks Akshay Mehra Trisha Mittal Subhadra Gopalakrishnan Joshua Kimball 36 0 0 23 Feb 2025
Explainable and Interpretable Multimodal Large Language Models: A Comprehensive Survey Yunkai Dang Kaichen Huang Jiahao Huo Yibo Yan S. Huang ... Kun Wang Yong Liu Jing Shao Hui Xiong Xuming Hu LRM 96 14 0 03 Dec 2024
Image-guided topic modeling for interpretable privacy classification Alina Elena Baia Andrea Cavallaro 32 0 0 27 Sep 2024
Evidential Concept Embedding Models: Towards Reliable Concept Explanations for Skin Disease Diagnosis Yibo Gao Zheyao Gao Xin Gao Yuanye Liu Bomin Wang Xiahai Zhuang 23 1 0 27 Jun 2024
Initialization is Critical to Whether Transformers Fit Composite Functions by Reasoning or Memorizing Zhongwang Zhang Pengxiao Lin Zhiwei Wang Yaoyu Zhang Z. Xu 37 3 0 08 May 2024
Improving Concept Alignment in Vision-Language Concept Bottleneck Models Nithish Muthuchamy Selvaraj Xiaobao Guo Bingquan Shen A. Kong Alex C. Kot VLM 37 0 0 03 May 2024
Pre-trained Vision-Language Models Learn Discoverable Visual Concepts Yuan Zang Tian Yun Hao Tan Trung Bui Chen Sun VLM CoGe 45 9 0 19 Apr 2024
Sequential Compositional Generalization in Multimodal Models Semih Yagcioglu Osman Batur .Ince Aykut Erdem Erkut Erdem Desmond Elliott Deniz Yuret 34 1 0 18 Apr 2024
If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept Descriptions Reza Esfandiarpoor Cristina Menghini Stephen H. Bach CoGe VLM 27 8 0 25 Mar 2024
Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework Vu Minh Hieu Phan Yutong Xie Yuankai Qi Lingqiao Liu Liyang Liu Bowen Zhang Zhibin Liao Qi Wu Minh Nguyen Nhat To Johan W. Verjans 51 11 0 12 Mar 2024
Interpreting CLIP with Sparse Linear Concept Embeddings (SpLiCE) Usha Bhalla Alexander X. Oesterling Suraj Srinivas Flavio du Pin Calmon Himabindu Lakkaraju 34 35 0 16 Feb 2024
FoMo Rewards: Can we cast foundation models as reward functions? Ekdeep Singh Lubana Johann Brehmer P. D. Haan Taco S. Cohen OffRL LRM 33 2 0 06 Dec 2023
Compositional Capabilities of Autoregressive Transformers: A Study on Synthetic, Interpretable Tasks Rahul Ramesh Ekdeep Singh Lubana Mikail Khona Robert P. Dick Hidenori Tanaka CoGe 27 6 0 21 Nov 2023
The Hidden Language of Diffusion Models Hila Chefer Oran Lang Mor Geva Volodymyr Polosukhin Assaf Shocher Michal Irani Inbar Mosseri Lior Wolf DiffM 20 26 0 01 Jun 2023
Parts of Speech-Grounded Subspaces in Vision-Language Models James Oldfield Christos Tzelepis Yannis Panagakis M. Nicolaou Ioannis Patras 19 9 0 23 May 2023
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models Yuan Yao Ao Zhang Zhengyan Zhang Zhiyuan Liu Tat-Seng Chua Maosong Sun MLLM VPVLM VLM 194 220 0 24 Sep 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,764 0 24 Feb 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 1,077 0 17 Feb 2021