How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers

18 June 2021

Papers citing "How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers"

50 / 415 papers shown

Title
Release of Pre-Trained Models for the Japanese Language Kei Sawada Tianyu Zhao Makoto Shing Kentaro Mitsui Akio Kaga Yukiya Hono Toshiaki Wakatsuki Koh Mitsuda 16 10 0 02 Apr 2024
Can Biases in ImageNet Models Explain Generalization? Paul Gavrikov J. Keuper OOD VLM 19 11 0 01 Apr 2024
DenseNets Reloaded: Paradigm Shift Beyond ResNets and ViTs Donghyun Kim Byeongho Heo Dongyoon Han 30 12 0 28 Mar 2024
Low-Rank Rescaled Vision Transformer Fine-Tuning: A Residual Design Approach Wei Dong Xing Zhang Bihui Chen Dawei Yan Zhijun Lin Qingsen Yan Peng Wang Yang Yang 31 6 0 28 Mar 2024
PaPr: Training-Free One-Step Patch Pruning with Lightweight ConvNets for Faster Inference Tanvir Mahmud Burhaneddin Yaman Chun-Hao Liu Diana Marculescu 31 2 0 24 Mar 2024
Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation Zhitong Xiong Yi Wang Fahong Zhang Adam J. Stewart Joelle Hanna Damian Borth Ioannis Papoutsis B. L. Saux Gustau Camps-Valls Xiao Xiang Zhu AI4CE 69 12 0 22 Mar 2024
Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey Zeyu Han Chao Gao Jinyang Liu Jeff Zhang Sai Qian Zhang 136 301 0 21 Mar 2024
Improved Baselines for Data-efficient Perceptual Augmentation of LLMs Théophane Vallaeys Mustafa Shukor Matthieu Cord Jakob Verbeek 54 12 0 20 Mar 2024
Rotary Position Embedding for Vision Transformer Byeongho Heo Song Park Dongyoon Han Sangdoo Yun 29 32 0 20 Mar 2024
When Do We Not Need Larger Vision Models? Baifeng Shi Ziyang Wu Maolin Mao Xin Wang Trevor Darrell VLM LRM 44 40 0 19 Mar 2024
Understanding Robustness of Visual State Space Models for Image Classification Chengbin Du Yanxi Li Chang Xu Mamba 34 12 0 16 Mar 2024
Frozen Feature Augmentation for Few-Shot Image Classification Andreas Bär N. Houlsby Mostafa Dehghani Manoj Kumar VLM 18 4 0 15 Mar 2024
TransLandSeg: A Transfer Learning Approach for Landslide Semantic Segmentation Based on Vision Foundation Model Changhong Hou Junchuan Yu Daqing Ge Liu Yang Laidian Xi Yunxuan Pang Yi Wen 17 0 0 15 Mar 2024
Approximate Nullspace Augmented Finetuning for Robust Vision Transformers Haoyang Liu Aditya Singh Yijiang Li Haohan Wang AAML ViT 28 1 0 15 Mar 2024
LAFS: Landmark-based Facial Self-supervised Learning for Face Recognition Zhonglin Sun Chen Feng Ioannis Patras Georgios Tzimiropoulos CVBM SSL 33 3 0 13 Mar 2024
ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions Chunlong Xia Xinliang Wang Feng Lv Xin Hao Yifeng Shi ViT 26 45 0 12 Mar 2024
FedFMS: Exploring Federated Foundation Models for Medical Image Segmentation Yuxi Liu Guibo Luo Yuesheng Zhu FedML MedIm 23 4 0 08 Mar 2024
Denoising Autoregressive Representation Learning Yazhe Li J. Bornschein Ting Chen DiffM 19 3 0 08 Mar 2024
NiNformer: A Network in Network Transformer with Token Mixing Generated Gating Function Abdullah Nazhat Abdullah Tarkan Aydin 23 0 0 04 Mar 2024
Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures Yuchen Duan Weiyun Wang Zhe Chen Xizhou Zhu Lewei Lu Tong Lu Yu Qiao Hongsheng Li Jifeng Dai Wenhai Wang ViT 38 44 0 04 Mar 2024
Ask Your Distribution Shift if Pre-Training is Right for You Benjamin Cohen-Wang Joshua Vendrow Aleksander Madry OOD 16 3 0 29 Feb 2024
Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent on Language Models Frederik Kunstner Robin Yadav Alan Milligan Mark Schmidt Alberto Bietti 29 26 0 29 Feb 2024
Pre-training Differentially Private Models with Limited Public Data Zhiqi Bu Xinwei Zhang Mingyi Hong Sheng Zha George Karypis 77 3 0 28 Feb 2024
Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling Mahdi Karami Ali Ghodsi VLM 31 6 0 28 Feb 2024
Pretrained Visual Uncertainties Michael Kirchhof Mark Collier Seong Joon Oh Enkelejda Kasneci UQCV 385 8 1 26 Feb 2024
Learning Low-Rank Feature for Thorax Disease Classification Rajeev Goel Utkarsh Nath Yancheng Wang Alvin C. Silva Teresa Wu Yingzhen Yang 8 0 0 14 Feb 2024
Fine-Tuning Text-To-Image Diffusion Models for Class-Wise Spurious Feature Generation AprilPyone Maungmaung H. Nguyen Hitoshi Kiya Isao Echizen 10 6 0 13 Feb 2024
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models Siddharth Karamcheti Suraj Nair Ashwin Balakrishna Percy Liang Thomas Kollar Dorsa Sadigh MLLM VLM 57 95 0 12 Feb 2024
Efficient Stagewise Pretraining via Progressive Subnetworks Abhishek Panigrahi Nikunj Saunshi Kaifeng Lyu Sobhan Miryoosefi Sashank J. Reddi Satyen Kale Sanjiv Kumar 23 5 0 08 Feb 2024
LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views Yuji Roh Qingyun Liu Huan Gui Zhe Yuan Yujin Tang ... Liang Liu Shuchao Bi Lichan Hong Ed H. Chi Zhe Zhao 30 1 0 07 Feb 2024
OVOR: OnePrompt with Virtual Outlier Regularization for Rehearsal-Free Class-Incremental Learning Wei-Cheng Huang Chun-Fu Chen Hsiang Hsu VLM 20 11 0 06 Feb 2024
Time-, Memory- and Parameter-Efficient Visual Adaptation Otniel-Bogdan Mercea Alexey Gritsenko Cordelia Schmid Anurag Arnab VLM 35 13 0 05 Feb 2024
Continual Learning with Pre-Trained Models: A Survey Da-Wei Zhou Hai-Long Sun Jingyi Ning Han-Jia Ye De-Chuan Zhan CLL KELM 26 62 0 29 Jan 2024
Rethinking Patch Dependence for Masked Autoencoders Letian Fu Long Lian Renhao Wang Baifeng Shi Xudong Wang Adam Yala Trevor Darrell Alexei A. Efros Ken Goldberg 26 14 0 25 Jan 2024
MapNeXt: Revisiting Training and Scaling Practices for Online Vectorized HD Map Construction Toyota Li 24 5 0 14 Jan 2024
Denoising Vision Transformers Jiawei Yang Katie Z Luo Jie Li Kilian Q. Weinberger Yonglong Tian Yue Wang DiffM 19 13 0 05 Jan 2024
SPFormer: Enhancing Vision Transformer with Superpixel Representation Jieru Mei Liang-Chieh Chen Alan L. Yuille Cihang Xie ViT MDE 19 4 0 05 Jan 2024
Analyzing Local Representations of Self-supervised Vision Transformers Ani Vanyan Alvard Barseghyan Hakob Tamazyan Vahan Huroyan Hrant Khachatrian Martin Danelljan 28 2 0 31 Dec 2023
FerKD: Surgical Label Adaptation for Efficient Distillation Zhiqiang Shen 21 2 0 29 Dec 2023
Learning Vision from Models Rivals Learning Vision from Data Yonglong Tian Lijie Fan Kaifeng Chen Dina Katabi Dilip Krishnan Phillip Isola 11 43 0 28 Dec 2023
Universal Pyramid Adversarial Training for Improved ViT Performance Ping Yeh-Chiang Yipin Zhou Omid Poursaeed S. Narayan Shukla Tom Goldstein Ser-Nam Lim AAML ViT 14 0 0 26 Dec 2023
SeiT++: Masked Token Modeling Improves Storage-efficient Training Min-Seob Lee Song Park Byeongho Heo Dongyoon Han Hyunjung Shim MQ VLM 11 1 0 15 Dec 2023
Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language Models Chen Ju Haicheng Wang Zeqian Li Xu Chen Zhonghua Zhai Weilin Huang Shuai Xiao VLM 68 7 0 12 Dec 2023
Scaling Laws of Synthetic Images for Model Training ... for Now Lijie Fan Kaifeng Chen Dilip Krishnan Dina Katabi Phillip Isola Yonglong Tian CLIP VLM 20 60 0 07 Dec 2023
Understanding the Detrimental Class-level Effects of Data Augmentation Polina Kirichenko Mark Ibrahim Randall Balestriero Diane Bouchacourt Ramakrishna Vedantam Hamed Firooz Andrew Gordon Wilson 27 12 0 07 Dec 2023
FoMo Rewards: Can we cast foundation models as reward functions? Ekdeep Singh Lubana Johann Brehmer P. D. Haan Taco S. Cohen OffRL LRM 33 2 0 06 Dec 2023
Multitask Learning Can Improve Worst-Group Outcomes Atharva Kulkarni Lucio Dery Amrith Rajagopal Setlur Aditi Raghunathan Ameet Talwalkar Graham Neubig 19 1 0 05 Dec 2023
GIVT: Generative Infinite-Vocabulary Transformers Michael Tschannen Cian Eastwood Fabian Mentzer 6 32 0 04 Dec 2023
Bootstrapping SparseFormers from Vision Foundation Models Ziteng Gao Zhan Tong K. Lin Joya Chen Mike Zheng Shou 23 0 0 04 Dec 2023
Visual Encoders for Data-Efficient Imitation Learning in Modern Video Games Lukas Schäfer Logan Jones Anssi Kanervisto Yuhan Cao Tabish Rashid Raluca Georgescu David Bignell Siddhartha Sen Andrea Trevino Gavito Sam Devlin 82 3 0 04 Dec 2023