Vision Transformer Adapter for Dense Predictions

17 May 2022

Yu Qiao

Papers citing "Vision Transformer Adapter for Dense Predictions"

50 / 71 papers shown

Title
Image Recognition with Online Lightweight Vision Transformer: A Survey Zherui Zhang Rongtao Xu Jie Zhou Changwei Wang Xingtian Pei ... Jiguang Zhang Li Guo Longxiang Gao W. Xu Shibiao Xu ViT 51 0 0 06 May 2025
Learning Streaming Video Representation via Multitask Training Yibin Yan Jilan Xu Shangzhe Di Yikun Liu Yudi Shi Qirui Chen Zeqian Li Yifei Huang Weidi Xie CLL 76 0 0 28 Apr 2025
CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis Alexander Baumann Leonardo Ayala S. Jan Sellner Alexander Studier-Fischer Berkin Özdemir Lena Maier-Hein Slobodan Ilic 51 0 0 27 Apr 2025
What is the Added Value of UDA in the VFM Era? B. B. Englert Tommie Kerssies Gijs Dubbelman 32 0 0 25 Apr 2025
Earth-Adapter: Bridge the Geospatial Domain Gaps with Mixture of Frequency Adaptation Xiaoxing Hu Ziyang Gong Y. Wang Yuru Jia Gen Luo Xue Yang 47 0 0 08 Apr 2025
Rip Current Segmentation: A Novel Benchmark and YOLOv8 Baseline Results Andrei Dumitriu Florin Tatui Florin Miron Radu Tudor Ionescu Radu Timofte 37 20 0 03 Apr 2025
Large (Vision) Language Models are Unsupervised In-Context Learners Artyom Gadetsky Andrei Atanov Yulun Jiang Zhitong Gao Ghazal Hosseini Mighan Amir Zamir Maria Brbić VLM MLLM LRM 64 0 0 03 Apr 2025
HGFormer: Topology-Aware Vision Transformer with HyperGraph Learning Hao Wang Shuo Zhang Biao Leng ViT 59 0 0 03 Apr 2025
A Multi-Agent Framework Integrating Large Language Models and Generative AI for Accelerated Metamaterial Design Jie Tian Martin Taylor Sobczak Dhanush Patil Jixin Hou Lin Pang ... Yuval Golan Xiaoming Zhai Hongyue Sun Kenan Song X. U. Wang LLMAG AI4CE 53 0 0 25 Mar 2025
Improving SAM for Camouflaged Object Detection via Dual Stream Adapters Jiaming Liu Linghe Kong Guihai Chen 58 0 0 08 Mar 2025
A Lightweight and Extensible Cell Segmentation and Classification Model for Whole Slide Images N. Shvetsov T. Kilvaer M. Tafavvoghi Anders Sildnes Kajsa Møllersen Lill-ToveRasmussen Busund L. A. Bongo VLM 66 1 0 26 Feb 2025
VesselSAM: Leveraging SAM for Aortic Vessel Segmentation with LoRA and Atrous Attention Adnan Iltaf Rayan Merghani Ahmed Bin Li Bin Li Shoujun Zhou 50 0 0 25 Feb 2025
MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval Haoran Tang Meng Cao Jinfa Huang Ruyang Liu Peng Jin Ge Li Xiaodan Liang Mamba 92 4 0 24 Feb 2025
UNIP: Rethinking Pre-trained Attention Patterns for Infrared Semantic Segmentation Tao Zhang Jinyong Wen Zhen Chen Kun Ding S. Xiang Chunhong Pan 72 1 0 04 Feb 2025
MADation: Face Morphing Attack Detection with Foundation Models Eduarda Caldeira Guray Ozgur Tahar Chettaoui Marija Ivanovska Peter Peer Fadi Boutros Vitomir Štruc Naser Damer CVBM 34 0 1 28 Jan 2025
Editable-DeepSC: Reliable Cross-Modal Semantic Communications for Facial Editing Bin Chen Wenbo Yu Qinshan Zhang Tianqu Zhuang Yong Jiang Shu-Tao Xia 124 0 0 24 Nov 2024
FRoundation: Are Foundation Models Ready for Face Recognition? Tahar Chettaoui Naser Damer Fadi Boutros CVBM 39 4 0 31 Oct 2024
Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies L. Wang Sheng Chen Linnan Jiang Shu Pan Runze Cai Sen Yang Fei Yang 44 3 0 24 Oct 2024
Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes Jianqi Chen Panwen Hu Xiaojun Chang Z. Shi Michael C. Kampffmeyer Xiaodan Liang 46 5 0 14 Oct 2024
Locality Alignment Improves Vision-Language Models Ian Covert Tony Sun James Y. Zou Tatsunori Hashimoto VLM 64 3 0 14 Oct 2024
DB-SAM: Delving into High Quality Universal Medical Image Segmentation Chao Qin Jiale Cao H. Fu F. Khan Rao Muhammad Anwer MedIm 20 5 0 05 Oct 2024
Mixed-View Panorama Synthesis using Geospatially Guided Diffusion Zhexiao Xiong Xin Xing Scott Workman Subash Khanal Nathan Jacobs DiffM MDE 52 1 0 12 Jul 2024
Learning Spatial-Semantic Features for Robust Video Object Segmentation Xin Li Deshui Miao Zhenyu He Y. Wang Huchuan Lu Ming Yang VOS 49 4 0 10 Jul 2024
From Pixels to Progress: Generating Road Network from Satellite Imagery for Socioeconomic Insights in Impoverished Areas Yanxin Xi Yu Liu Zhicheng Liu Sasu Tarkoma Pan Hui Yong Li 18 0 0 17 Jun 2024
ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts Samar Khanna Medhanie Irgau David B. Lobell Stefano Ermon VLM 28 4 0 16 Jun 2024
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models Yutao Zhu Zhaoheng Huang Zhicheng Dou Ji-Rong Wen RALM 45 5 0 30 May 2024
Adapting Pre-Trained Vision Models for Novel Instance Detection and Segmentation Ya Lu Jishnu Jaykumar Yunhui Guo Nicholas Ruozzi Yu Xiang VLM ISeg 48 4 0 28 May 2024
Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission Mingyu Yang Bowen Liu Boyang Wang Hun-Seok Kim DiffM 42 5 0 27 Apr 2024
X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization Anna Kukleva Fadime Sener Edoardo Remelli Bugra Tekin Eric Sauser Bernt Schiele Shugao Ma VLM EgoV 29 1 0 28 Mar 2024
Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures Yuchen Duan Weiyun Wang Zhe Chen Xizhou Zhu Lewei Lu Tong Lu Yu Qiao Hongsheng Li Jifeng Dai Wenhai Wang ViT 38 44 0 04 Mar 2024
A Simple yet Effective Network based on Vision Transformer for Camouflaged Object and Salient Object Detection Chao Hao Zitong Yu Xin Liu Jun Xu Huanjing Yue Jingyu Yang ViT 29 6 0 29 Feb 2024
Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey Yi Xin Jianjiang Yang Haodi Zhou Junlong Du Junlong Du Yue Fan Qing Li Qing Li Yuntao Du VLM 59 74 0 03 Feb 2024
Latency-aware Road Anomaly Segmentation in Videos: A Photorealistic Dataset and New Metrics Beiwen Tian Huan-ang Gao Leiyao Cui Yupeng Zheng Lan Luo Baofeng Wang Rong Zhi Guyue Zhou Hao Zhao 19 4 0 10 Jan 2024
Read Between the Layers: Leveraging Multi-Layer Representations for Rehearsal-Free Continual Learning with Pre-Trained Models Kyra Ahrens Hans Hergen Lehmann Jae Hee Lee Stefan Wermter CLL 18 7 0 13 Dec 2023
Inter-object Discriminative Graph Modeling for Indoor Scene Recognition Chuanxin Song Hanbo Wu Xin Ma 8 6 0 10 Nov 2023
Minimalist and High-Performance Semantic Segmentation with Plain Vision Transformers Yuanduo Hong Jue Wang Weichao Sun Huihui Pan VLM ViT 27 7 0 19 Oct 2023
SAM-Med2D Junlong Cheng Jin Ye Zhongying Deng Jianpin Chen Tian-Xin Li ... Hui Sun Junjun He Shaoting Zhang Min Zhu Yu Qiao MedIm VLM 31 119 0 30 Aug 2023
Semantic-embedded Similarity Prototype for Scene Recognition Chuanxin Song Hanbo Wu X. Ma Yibin Li 17 3 0 11 Aug 2023
FB-OCC: 3D Occupancy Prediction based on Forward-Backward View Transformation Zhiqi Li Zhiding Yu David Austin Mingsheng Fang Shiyi Lan Jan Kautz J. Álvarez 13 97 0 04 Jul 2023
Parameter-efficient is not sufficient: Exploring Parameter, Memory, and Time Efficient Adapter Tuning for Dense Predictions Dongshuo Yin Xueting Han Bin Li Hao Feng Jinghua Bai VPVLM 26 16 0 16 Jun 2023
Semantic Segmentation on VSPW Dataset through Contrastive Loss and Multi-dataset Training Approach Min Yan Qianxiong Ning Qian Wang 12 1 0 06 Jun 2023
Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image Generation Minghui Hu Jianbin Zheng Daqing Liu Chuanxia Zheng Chaoyue Wang Dacheng Tao Tat-Jen Cham DiffM 20 9 0 01 Jun 2023
Do We Really Need a Large Number of Visual Prompts? Youngeun Kim Yuhang Li Abhishek Moitra Ruokai Yin Priyadarshini Panda VLM VPVLM 34 5 0 26 May 2023
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities Peng Wang Shijie Wang Junyang Lin Shuai Bai Xiaohuan Zhou Jingren Zhou Xinggang Wang Chang Zhou VLM MLLM ObjD 16 113 0 18 May 2023
Radious: Unveiling the Enigma of Dental Radiology with BEIT Adaptor and Mask2Former in Semantic Segmentation M. Mashayekhi Sara Ahmadi Majd Arian Amiramjadi Babak Mashayekhi 13 0 0 10 May 2023
Permutation Equivariance of Transformers and Its Applications Hengyuan Xu Liyao Xiang Hang Ye Dixi Yao Pengzhi Chu Baochun Li 17 13 0 16 Apr 2023
DINOv2: Learning Robust Visual Features without Supervision Maxime Oquab Timothée Darcet Théo Moutakanni Huy Q. Vo Marc Szafraniec ... Hervé Jégou Julien Mairal Patrick Labatut Armand Joulin Piotr Bojanowski VLM CLIP SSL 23 2,983 0 14 Apr 2023
DDP: Diffusion Model for Dense Visual Prediction Yuanfeng Ji Zhe Chen Enze Xie Lanqing Hong Xihui Liu Zhaoqiang Liu Tong Lu Zhenguo Li Ping Luo DiffM VLM 24 129 0 30 Mar 2023
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention Renrui Zhang Jiaming Han Chris Liu Peng Gao Aojun Zhou Xiangfei Hu Shilin Yan Pan Lu Hongsheng Li Yu Qiao MLLM 23 736 0 28 Mar 2023
iBall: Augmenting Basketball Videos with Gaze-moderated Embedded Visualizations Zhutian Chen Qisen Yang Jiarui Shan Tica Lin Johanna Beyer Haijun Xia Hanspeter Pfister 19 28 0 06 Mar 2023