MSViT: Dynamic Mixed-Scale Tokenization for Vision Transformers

5 July 2023

Papers citing "MSViT: Dynamic Mixed-Scale Tokenization for Vision Transformers"

5 / 5 papers shown

Title
Charm: The Missing Piece in ViT fine-tuning for Image Aesthetic Assessment Fatemeh Behrad Tinne Tuytelaars Johan Wagemans ViT 30 0 0 03 Apr 2025
Make A Long Image Short: Adaptive Token Length for Vision Transformers Yuqin Zhu Yichen Zhu ViT 57 17 0 05 Jul 2023
QuadTree Attention for Vision Transformers Shitao Tang Jiahui Zhang Siyu Zhu Ping Tan ViT 157 156 0 08 Jan 2022
Feature Pyramid Networks for Object Detection Tsung-Yi Lin Piotr Dollár Ross B. Girshick Kaiming He Bharath Hariharan Serge J. Belongie ObjD 166 21,643 0 09 Dec 2016
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 282 39,170 0 01 Sep 2014