Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners

3 March 2023

Yu Qiao

Papers citing "Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners"

45 / 145 papers shown

Title
GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph Xin Li Dongze Lian Zhihe Lu Jiawang Bai Zhibo Chen Xinchao Wang VLM 24 58 0 24 Sep 2023
Zero-Shot Object Counting with Language-Vision Models Jingyi Xu Hieu M. Le Dimitris Samaras VLM DiffM 16 4 0 22 Sep 2023
LMC: Large Model Collaboration with Cross-assessment for Training-Free Open-Set Object Recognition Haoxuan Qu Xiaofei Hui Yujun Cai Jun Liu 31 10 0 22 Sep 2023
Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained Vision-Language Models Kecheng Zheng Wei Wu Ruili Feng Kai Zhu Jiawei Liu Deli Zhao Zhengjun Zha Wei Chen Yujun Shen VLM 6 8 0 27 Jul 2023
GIST: Generating Image-Specific Text for Fine-grained Object Classification Kathleen M. Lewis Emily Mu Adrian V. Dalca John Guttag VLM 14 7 0 21 Jul 2023
GeoGPT: Understanding and Processing Geospatial Tasks through An Autonomous GPT Yifan Zhang Cheng Wei Shangyou Wu Zhengting He Wenhao Yu 20 25 0 16 Jul 2023
A Comprehensive Overview of Large Language Models Humza Naveed Asad Ullah Khan Shi Qiu Muhammad Saqib Saeed Anwar Muhammad Usman Naveed Akhtar Nick Barnes Ajmal Saeed Mian OffRL 46 499 0 12 Jul 2023
A Survey on Multimodal Large Language Models Shukang Yin Chaoyou Fu Sirui Zhao Ke Li Xing Sun Tong Bill Xu Enhong Chen MLLM LRM 33 551 0 23 Jun 2023
Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification Jintao Rong Hao Chen Tianrun Chen Linlin Ou Xinyi Yu Yifan Liu VLM VPVLM 10 6 0 04 Jun 2023
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey Chen Ling Xujiang Zhao Jiaying Lu Chengyuan Deng Can Zheng ... Chris White Quanquan Gu Jian Pei Carl Yang Liang Zhao ALM 16 125 0 30 May 2023
Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation Shilin Yan Renrui Zhang Ziyu Guo Wenchao Chen Wei Zhang Hongyang Li Yu Qiao Hao Dong Zhongjiang He Peng Gao VOS 11 29 0 25 May 2023
Enhance Reasoning Ability of Visual-Language Models via Large Language Models Yueting Yang Xintong Zhang Wenjuan Han VLM ReLM LRM 22 1 0 22 May 2023
InstructVid2Vid: Controllable Video Editing with Natural Language Instructions Bosheng Qin Juncheng Li Siliang Tang Tat-Seng Chua Yueting Zhuang VGen DiffM 13 16 0 21 May 2023
Going Denser with Open-Vocabulary Part Segmentation Pei Sun Shoufa Chen Chenchen Zhu Fanyi Xiao Ping Luo Saining Xie Zhicheng Yan ObjD VLM 12 45 0 18 May 2023
Personalize Segment Anything Model with One Shot Renrui Zhang Zhengkai Jiang Ziyu Guo Shilin Yan Junting Pan Xianzheng Ma Hao Dong Peng Gao Hongsheng Li MLLM VLM 23 206 0 04 May 2023
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model Peng Gao Jiaming Han Renrui Zhang Ziyi Lin Shijie Geng ... Pan Lu Conghui He Xiangyu Yue Hongsheng Li Yu Qiao MLLM 17 542 0 28 Apr 2023
Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement Xiang-yu Zhu Renrui Zhang Bowei He A-Long Zhou Dong Wang Bingyan Zhao Peng Gao VLM 27 76 0 03 Apr 2023
ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with GPT and Prototype Guidance Zoey Guo Yiwen Tang Renrui Zhang Dong Wang Zhigang Wang Bin Zhao Xuelong Li 23 53 0 29 Mar 2023
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention Renrui Zhang Jiaming Han Chris Liu Peng Gao Aojun Zhou Xiangfei Hu Shilin Yan Pan Lu Hongsheng Li Yu Qiao MLLM 23 736 0 28 Mar 2023
Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens Yuxiao Chen Jianbo Yuan Yu Tian Shijie Geng Xinyu Li Ding Zhou Dimitris N. Metaxas Hongxia Yang 14 33 0 27 Mar 2023
Parameter is Not All You Need: Starting from Non-Parametric Networks for 3D Point Cloud Analysis Renrui Zhang Liuhui Wang Ziyu Guo Yali Wang Peng Gao Hongsheng Li Jianbo Shi 3DPC 14 50 0 14 Mar 2023
PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection Anthony Chen Kevin Zhang Renrui Zhang Zihan Wang Yuheng Lu Yandong Guo Shanghang Zhang 3DPC 67 59 0 14 Mar 2023
Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud Pre-training Ziyu Guo Renrui Zhang Longtian Qiu Xianzhi Li Pheng-Ann Heng 3DPC 18 52 0 27 Feb 2023
Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation Yue Han Jiangning Zhang Zhucun Xue Chao Xu Xintian Shen Yabiao Wang Chengjie Wang Yong Liu Xiangtai Li 27 16 0 03 Jan 2023
SuS-X: Training-Free Name-Only Transfer of Vision-Language Models Vishaal Udandarao Ankush Gupta Samuel Albanie VLM MLLM 22 103 0 28 Nov 2022
PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world Learning Xiangyang Zhu Renrui Zhang Bowei He Ziyu Guo Ziyao Zeng Zipeng Qin Shanghang Zhang Peng Gao VLM 25 133 0 21 Nov 2022
EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual Grounding Yanmin Wu Xinhua Cheng Renrui Zhang Zesen Cheng Jian Zhang 48 62 0 29 Sep 2022
CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention Ziyu Guo Renrui Zhang Longtian Qiu Xianzheng Ma Xupeng Miao Xuming He Bin Cui VLM AAML 55 108 0 28 Sep 2022
Revisiting Few-Shot Learning from a Causal Perspective Guoliang Lin Yongheng Xu Hanjiang Lai Jian Yin CML 13 3 0 28 Sep 2022
Collaboration of Pre-trained Models Makes Better Few-shot Learner Renrui Zhang Bohao Li Wei Zhang Hao Dong Hongsheng Li Peng Gao Yu Qiao VLM 50 7 0 25 Sep 2022
What does a platypus look like? Generating customized prompts for zero-shot image classification Sarah M Pratt Ian Covert Rosanne Liu Ali Farhadi VLM 119 211 0 07 Sep 2022
Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training Renrui Zhang Ziyu Guo Rongyao Fang Bingyan Zhao Dong Wang Yu Qiao Hongsheng Li Peng Gao 3DPC 171 241 0 28 May 2022
PointCLIP: Point Cloud Understanding by CLIP Renrui Zhang Ziyu Guo Wei Zhang Kunchang Li Xupeng Miao Bin Cui Yu Qiao Peng Gao Hongsheng Li VLM 3DPC 164 428 0 04 Dec 2021
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,337 0 11 Nov 2021
Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling Renrui Zhang Rongyao Fang Wei Zhang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 184 384 0 06 Nov 2021
CLIP-Adapter: Better Vision-Language Models with Feature Adapters Peng Gao Shijie Geng Renrui Zhang Teli Ma Rongyao Fang Yongfeng Zhang Hongsheng Li Yu Qiao VLM CLIP 51 974 0 09 Oct 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 322 2,249 0 02 Sep 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 283 5,723 0 29 Apr 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,735 0 24 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021
Free Lunch for Few-shot Learning: Distribution Calibration Shuo Yang Lu Liu Min Xu OODD 199 316 0 16 Jan 2021
Making Pre-trained Language Models Better Few-shot Learners Tianyu Gao Adam Fisch Danqi Chen 241 1,898 0 31 Dec 2020
Meta-Baseline: Exploring Simple Meta-Learning for Few-Shot Learning Yinbo Chen Zhuang Liu Huijuan Xu Trevor Darrell Xiaolong Wang 158 339 0 09 Mar 2020
Improved Baselines with Momentum Contrastive Learning Xinlei Chen Haoqi Fan Ross B. Girshick Kaiming He SSL 238 3,359 0 09 Mar 2020
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea Finn Pieter Abbeel Sergey Levine OOD 243 11,568 0 09 Mar 2017