DeViL: Decoding Vision features into Language

4 September 2023

Papers citing "DeViL: Decoding Vision features into Language"

7 / 7 papers shown

Title
CoE: Chain-of-Explanation via Automatic Visual Concept Circuit Description and Polysemanticity Quantification Wenlong Yu Qilong Wang Chuang Liu Dong Li Q. Hu LRM 58 0 0 19 Mar 2025
Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs Mustafa Shukor Matthieu Cord 59 5 0 26 May 2024
Representing visual classification as a linear combination of words Shobhit Agarwal Yevgeniy R. Semenov William Lotter 17 1 0 18 Nov 2023
Natural Language Descriptions of Deep Visual Features Evan Hernandez Sarah Schwettmann David Bau Teona Bagashvili Antonio Torralba Jacob Andreas MILM 194 92 0 26 Jan 2022
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 263 3,538 0 24 Feb 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 845 0 17 Feb 2021
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 250 922 0 24 Sep 2019