v1v2 (latest)

Visual Classification via Description from Large Language Models

International Conference on Learning Representations (ICLR), 2022

13 October 2022

Sachit Menon

Carl Vondrick

VLM

ArXiv (abs)PDF HTML

Papers citing "Visual Classification via Description from Large Language Models"

50 / 260 papers shown

Title
DiVE-k: Differential Visual Reasoning for Fine-grained Image Recognition Raja Kumar Arka Sadhu Ram Nevatia VLM 129 0 0 23 Nov 2025
Culture in Action: Evaluating Text-to-Image Models through Social Activities Sina Malakouti Boqing Gong Adriana Kovashka EGVM VLM 258 0 0 07 Nov 2025
LGCA: Enhancing Semantic Representation via Progressive Expansion Thanh Hieu Cao Trung Khang Tran Gia Thinh Pham Tuong Nghiem Diep Thanh Binh Nguyen VLM 166 0 0 01 Nov 2025
FedMGP: Personalized Federated Learning with Multi-Group Text-Visual Prompts Weihao Bo Yanpeng Sun Y. Wang X. Zhang Zechao Li FedML VLM 226 0 0 01 Nov 2025
Enrich and Detect: Video Temporal Grounding with Multimodal LLMs Shraman Pramanick E. Mavroudi Yale Song Rama Chellappa Lorenzo Torresani Triantafyllos Afouras 116 0 0 19 Oct 2025
AUGUSTUS: An LLM-Driven Multimodal Agent System with Contextualized User Memory Jitesh Jain Shubham Maheshwari Ning Yu Wen-mei W. Hwu Humphrey Shi RALM 104 0 0 17 Oct 2025
ViConEx-Med: Visual Concept Explainability via Multi-Concept Token Transformer for Medical Image Analysis Cristiano Patrício Luís F. Teixeira João C. Neves MedIm 86 0 0 11 Oct 2025
Conditional Representation Learning for Customized Tasks Honglin Liu Chao Sun Peng Hu Yunfan Li Xi Peng 83 0 0 06 Oct 2025
From Segments to Concepts: Interpretable Image Classification via Concept-Guided Segmentation Ran Eisenberg Amit Rozner Ethan Fetaya Ofir Lindenbaum VLM 84 0 0 05 Oct 2025
Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play Qinsi Wang Bo Liu Tianyi Zhou Jing Shi Yueqian Lin Yiran Chen Hai Helen Li Kun Wan Wentian Zhao OffRL VLM LRM 98 4 0 29 Sep 2025
Hierarchical Representation Matching for CLIP-based Class-Incremental Learning Zhen-Hao Wen Yan Wang Ji Feng Han-Jia Ye De-Chuan Zhan Da-Wei Zhou CLL VLM 104 0 0 26 Sep 2025
Concepts in Motion: Temporal Bottlenecks for Interpretable Video Classification Patrick Knab Sascha Marton Philipp J. Schubert Drago Guggiana Christian Bartelt 81 0 0 25 Sep 2025
Improving Generalizability and Undetectability for Targeted Adversarial Attacks on Multimodal Pre-trained Models Zhifang Zhang Jiahan Zhang S. Kevin Zhou Qi Wei Shuo He Feng Liu Bingquan Shen AAML 184 1 0 24 Sep 2025
What Makes You Unique? Attribute Prompt Composition for Object Re-Identification Yingquan Wang Pingping Zhang Chong Sun Dong Wang Huchuan Lu VLM 91 2 0 23 Sep 2025
Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models Xiaojie Yin Qilong Wang Q. Hu VLM 76 0 0 24 Aug 2025
Adapting Vision-Language Models Without Labels: A Comprehensive Survey Hao Dong Lijun Sheng Jian Liang Ran He Eleni Chatzi Olga Fink OffRL VLM 160 3 0 07 Aug 2025
Unified modality separation: A vision-language framework for unsupervised domain adaptationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025 Xinyao Li Jingjing Li Zhekai Du Lei Zhu Heng Tao Shen VLM 118 1 0 07 Aug 2025
UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval Hongyu Guo Kuan Zhu Xiangzhao Hao Haiyun Guo Ming Tang Jinqiao Wang VLM 84 0 0 06 Aug 2025
Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration Ting Lei Shaofeng Yin Qingchao Chen Yuxin Peng Yang Liu VLM 98 0 0 05 Aug 2025
Enhancing Zero-Shot Brain Tumor Subtype Classification via Fine-Grained Patch-Text Alignment Lubin Gan Jing Zhang Linhao Qu Y. X. R. Wang Siying Wu Xiaoyan Sun MedIm 187 3 0 03 Aug 2025
SUB: Benchmarking CBM Generalization via Synthetic Attribute Substitutions Jessica Bader Leander Girrbach Stephan Alaniz Zeynep Akata 103 2 0 31 Jul 2025
Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model Dmitry Demidov Zaigham Zaheer Omkar Thawakar Salman Khan Fahad Shahbaz Khan VLM 88 0 0 30 Jul 2025
Beyond Class Tokens: LLM-guided Dominant Property Mining for Few-shot Classification Wei Zhuo Runjie Luo Wufeng Xue Linlin Shen 216 0 0 28 Jul 2025
Test-time Vocabulary Adaptation for Language-driven Object DetectionInternational Conference on Information Photonics (ICIP), 2025 Mingxuan Liu Tyler L. Hayes Massimiliano Mancini Elisa Ricci Riccardo Volpi G. Csurka ObjD TTA VLM 161 2 0 31 May 2025
Conformal Prediction for Zero-Shot ModelsComputer Vision and Pattern Recognition (CVPR), 2025 Julio Silva-Rodríguez Ismail Ben Ayed Jose Dolz VLM 197 3 0 30 May 2025
GeoVision Labeler: Zero-Shot Geospatial Classification with Vision and Language Models G. Q. Hacheme G. Tadesse Caleb Robinson Akram Zaytar Rahul Dodhia J. L. Ferres VLM 100 0 0 30 May 2025
Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models Peter Robicheaux Matvei Popov Anish Madan Isaac Robinson Joseph Nelson Deva Ramanan Neehar Peri ObjD VLM 288 12 0 27 May 2025
Improving Recommendation Fairness without Sensitive Attributes Using Multi-Persona LLMs Haoran Xin Ying Sun Chao Wang Yanke Yu Weijia Zhang Hui Xiong FaML 137 1 0 26 May 2025
CONCORD: Concept-Informed Diffusion for Dataset Distillation Jianyang Gu Haonan Wang Ruoxi Jia Saeed Vahidian Vyacheslav Kungurtsev Wei Jiang Yiran Chen DiffM DD 1.3K 0 0 23 May 2025
Debiasing CLIP: Interpreting and Correcting Bias in Attention Heads Wei Jie Yeo Rui Mao Moloud Abdar Erik Cambria Frank Xing 236 2 0 23 May 2025
From Local Details to Global Context: Advancing Vision-Language Models with Attention-Based Selection Lincan Cai Jingxuan Kang Shuang Li Wenxuan Ma Binhui Xie Zhida Qin Jian Liang VLM 245 2 0 19 May 2025
Understanding Complexity in VideoQA via Visual Program Generation Cristobal Eyzaguirre Igor Vasiljevic Achal Dave Jiajun Wu Rares Andrei Ambrus Thomas Kollar Juan Carlos Niebles P. Tokmakov 218 0 0 19 May 2025
StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity AlignmentInternational Joint Conference on Artificial Intelligence (IJCAI), 2025 Younghyun Kim Jongheon Jeong Sangkyung Kwak Kyungmin Lee Juho Lee Jinwoo Shin 285 0 0 19 May 2025
FedMVP: Federated Multimodal Visual Prompt Tuning for Vision-Language Models Mainak Singha Subhankar Roy Sarthak Mehrotra Ankit Jha Moloud Abdar Biplab Banerjee Elisa Ricci VLM VPVLM 445 1 0 29 Apr 2025
FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation Yasser Benigmim Mohammad Fahes Tuan-Hung Vu Andrei Bursuc Raoul de Charette VLM 364 1 0 14 Apr 2025
Generalized Semantic Contrastive Learning via Embedding Side Information for Few-Shot Object DetectionIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025 Ruoyu Chen Hua Zhang Jingzhi Li Li Liu Zhen Huang Simeng Qin 199 2 0 09 Apr 2025
SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models Justus Westerhoff Erblina Purellku Jakob Hackstein Jonas Loos Leo Pinetzki Lorenz Hufe AAML 497 2 0 07 Apr 2025
Attributed Synthetic Data Generation for Zero-shot Domain-specific Image Classification Shijian Wang Linxin Song Ryotaro Shimizu M. Goto Hanqian Wu VLM 158 1 0 06 Apr 2025
CrowdVLM-R1: Expanding R1 Ability to Vision Language Model for Crowd Counting using Fuzzy Group Relative Policy Reward Zhiqiang Wang Pengbin Feng Yanbin Lin Shuzhang Cai Zongao Bian Jinghua Yan Xingquan Zhu 204 15 0 31 Mar 2025
Self-Evolving Visual Concept Library using Vision-Language CriticsComputer Vision and Pattern Recognition (CVPR), 2025 Atharva Sehgal Patrick Yuan Ziniu Hu Yisong Yue Jennifer J. Sun Swarat Chaudhuri VLM 172 2 0 31 Mar 2025
Attribute-formed Class-specific Concept Space: Endowing Language Bottleneck Model with Better Interpretability and ScalabilityComputer Vision and Pattern Recognition (CVPR), 2025 Jianyang Zhang Qianli Luo Guowu Yang Wenjing Yang Weide Liu Guosheng Lin Fengmao Lv 216 0 0 26 Mar 2025
Training-Free Personalization via Retrieval and Reasoning on Fingerprints Deepayan Das Davide Talon Yiming Wang Goran Frehse Elisa Ricci VLM LRM 378 1 0 24 Mar 2025
Compositional Caching for Training-free Open-vocabulary Attribute DetectionComputer Vision and Pattern Recognition (CVPR), 2025 Marco Garosi Alessandro Conti Gaowen Liu Elisa Ricci Goran Frehse ObjD VLM 287 1 0 24 Mar 2025
TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language ModelComputer Vision and Pattern Recognition (CVPR), 2025 Cheng Yang Yang Sui Jinqi Xiao Lingyi Huang Yu Gong ... Jinghua Yan Y. Bai P. Sadayappan Helen Zhou Bo Yuan VLM 323 18 0 24 Mar 2025
An Iterative Feedback Mechanism for Improving Natural Language Class Descriptions in Open-Vocabulary Object Detection Louis Y. Kim Michelle Karker Victoria Valledor Seiyoung C. Lee Karl F. Brzoska Margaret Duff Anthony Palladino VLM ObjD 176 1 0 21 Mar 2025
OSLoPrompt: Bridging Low-Supervision Challenges and Open-Set Domain Generalization in CLIPComputer Vision and Pattern Recognition (CVPR), 2025 M. Cui Divyam Gupta Mainak Singha Sai Bhargav Rongali Ankit Jha Muhammad Haris Khan Biplab Banerjee VLM 267 4 0 20 Mar 2025
Optimized 3D Gaussian Splatting using Coarse-to-Fine Image Frequency Modulation Umar Farooq Jean-Yves Guillemaut Adrian Hilton M. Volino 3DGS 270 2 0 18 Mar 2025
TLAC: Two-stage LMM Augmented CLIP for Zero-Shot Classification Ans Munir Faisal Z. Qureshi M. H. Khan Mohsen Ali VLM 373 1 0 15 Mar 2025
O-TPT: Orthogonality Constraints for Calibrating Test-time Prompt Tuning in Vision-Language ModelsComputer Vision and Pattern Recognition (CVPR), 2025 Ashshak Sharifdeen Muhammad Akhtar Munir Sanoojan Baliah Salman Khan M. H. Khan VLM 154 7 0 15 Mar 2025
CLIP-Free, Label-Free, Zero-Shot Concept Bottleneck Models Fawaz Sammani Jonas Fischer Nikos Deligiannis VLM 169 0 0 14 Mar 2025