CrossFormer: A Versatile Vision Transformer Hinging on Cross-scale Attention

31 July 2021

Wei Liu

Papers citing "CrossFormer: A Versatile Vision Transformer Hinging on Cross-scale Attention"

38 / 38 papers shown

Title
OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels Meng Lou Yizhou Yu 110 1 0 27 Feb 2025
Geometric Distortion Guided Transformer for Omnidirectional Image Super-Resolution Cuixin Yang Rongkang Dong Jun Xiao Cong Zhang Kin-Man Lam Fei Zhou Guoping Qiu 81 1 0 17 Jan 2025
Breaking the Low-Rank Dilemma of Linear Attention Qihang Fan Huaibo Huang Ran He 33 0 0 12 Nov 2024
Sample-Efficient Diffusion for Text-To-Speech Synthesis Justin Lovelace Soham Ray Kwangyoun Kim Kilian Q. Weinberger Felix Wu 32 2 0 01 Sep 2024
Can Transformers Do Enumerative Geometry? Baran Hashemi Roderic G. Corominas Alessandro Giacchetto 32 2 0 27 Aug 2024
HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution Xiang Zhang Yulun Zhang Fisher Yu 37 15 0 08 Jul 2024
Vision Transformer with Sparse Scan Prior Qihang Fan Huaibo Huang Mingrui Chen Ran He ViT 36 5 0 22 May 2024
Enhancing Efficiency in Vision Transformer Networks: Design Techniques and Insights Moein Heidari Reza Azad Sina Ghorbani Kolahi René Arimond Leon Niggemeier ... Afshin Bozorgpour Ehsan Khodapanah Aghdam A. Kazerouni I. Hacihaliloglu Dorit Merhof 41 7 0 28 Mar 2024
SCHEME: Scalable Channel Mixer for Vision Transformers Deepak Sridhar Yunsheng Li Nuno Vasconcelos 18 0 0 01 Dec 2023
TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition Meng Lou Hong-Yu Zhou Sibei Yang Yizhou Yu Chuan Wu Yizhou Yu ViT 31 35 0 30 Oct 2023
EViT: An Eagle Vision Transformer with Bi-Fovea Self-Attention Yulong Shi Mingwei Sun Yongshuai Wang Hui Sun Zengqiang Chen 29 4 0 10 Oct 2023
Dual Aggregation Transformer for Image Super-Resolution Zheng Chen Yulun Zhang Jinjin Gu L. Kong Xiaokang Yang F. I. F. Richard Yu ViT 11 166 0 07 Aug 2023
Multiscale Memory Comparator Transformer for Few-Shot Video Segmentation Mennatullah Siam R. Karim Henghui Zhao Richard P. Wildes VOS 21 2 0 15 Jul 2023
Lightweight Vision Transformer with Bidirectional Interaction Qihang Fan Huaibo Huang Xiaoqiang Zhou Ran He ViT 31 27 0 01 Jun 2023
SparseViT: Revisiting Activation Sparsity for Efficient High-Resolution Vision Transformer Xuanyao Chen Zhijian Liu Haotian Tang Li Yi Hang Zhao Song Han ViT 18 46 0 30 Mar 2023
Cascaded Local Implicit Transformer for Arbitrary-Scale Super-Resolution Haoming Chen Yu-Syuan Xu Minui Hong Yi-Min Tsai Hsien-Kai Kuo Chun-Yi Lee OffRL 31 46 0 29 Mar 2023
Vision Transformer with Quadrangle Attention Qiming Zhang Jing Zhang Yufei Xu Dacheng Tao ViT 19 38 0 27 Mar 2023
AMD-HookNet for Glacier Front Segmentation Fei Wu Nora Gourmelon T. Seehaus Jianlin Zhang M. Braun Andreas K. Maier Vincent Christlein 11 9 0 06 Feb 2023
HDFormer: High-order Directed Transformer for 3D Human Pose Estimation Hanyuan Chen Ju He Wangmeng Xiang Zhi-Qi Cheng W. Liu Han-Wen Liu Bin Luo Yifeng Geng Xuansong Xie ViT 18 31 0 03 Feb 2023
Rethinking Vision Transformers for MobileNet Size and Speed Yanyu Li Ju Hu Yang Wen Georgios Evangelidis Kamyar Salahi Yanzhi Wang Sergey Tulyakov Jian Ren ViT 21 157 0 15 Dec 2022
Concealed Object Detection for Passive Millimeter-Wave Security Imaging Based on Task-Aligned Detection Transformer Cheng Guo Fei-hu Hu Yan Hu ViT 13 15 0 01 Dec 2022
Degenerate Swin to Win: Plain Window-based Transformer without Sophisticated Operations Tan Yu Ping Li ViT 36 5 0 25 Nov 2022
Towards Efficient Adversarial Training on Vision Transformers Boxi Wu Jindong Gu Zhifeng Li Deng Cai Xiaofei He Wei Liu ViT AAML 23 37 0 21 Jul 2022
Improving Semantic Segmentation in Transformers using Hierarchical Inter-Level Attention Gary Leung Jun Gao Xiaohui Zeng Sanja Fidler 13 3 0 05 Jul 2022
Learning Cross-Image Object Semantic Relation in Transformer for Few-Shot Fine-Grained Image Classification Bo-Wen Zhang Jiakang Yuan Baopu Li Tao Chen Jiayuan Fan Botian Shi ViT 9 31 0 02 Jul 2022
EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm Jiangning Zhang Xiangtai Li Yabiao Wang Chengjie Wang Yibo Yang Yong Liu Dacheng Tao ViT 28 32 0 19 Jun 2022
The Devil is in the Labels: Noisy Label Correction for Robust Scene Graph Generation Lin Li Long Chen Yifeng Huang Zhimeng Zhang Songyang Zhang Jun Xiao NoLa 24 72 0 07 Jun 2022
Multi-Agent Reinforcement Learning is a Sequence Modeling Problem Muning Wen J. Kuba Runji Lin Weinan Zhang Ying Wen J. Wang Yaodong Yang 21 177 0 30 May 2022
ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Yufei Xu Jing Zhang Qiming Zhang Dacheng Tao ViT 17 509 0 26 Apr 2022
Deeper Insights into the Robustness of ViTs towards Common Corruptions Rui Tian Zuxuan Wu Qi Dai Han Hu Yu-Gang Jiang ViT AAML 14 4 0 26 Apr 2022
VSA: Learning Varied-Size Window Attention in Vision Transformers Qiming Zhang Yufei Xu Jing Zhang Dacheng Tao 22 53 0 18 Apr 2022
Improving Vision Transformers by Revisiting High-frequency Components Jiawang Bai Liuliang Yuan Shutao Xia Shuicheng Yan Zhifeng Li W. Liu ViT 8 90 0 03 Apr 2022
ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer Rui Yang Hailong Ma Jie Wu Yansong Tang Xuefeng Xiao Min Zheng Xiu Li ViT 19 53 0 21 Mar 2022
DynaMixer: A Vision MLP Architecture with Dynamic Mixing Ziyu Wang Wenhao Jiang Yiming Zhu Li Yuan Yibing Song Wei Liu 30 43 0 28 Jan 2022
Classification-Then-Grounding: Reformulating Video Scene Graphs as Temporal Bipartite Graphs Kaifeng Gao Long Chen Yulei Niu Jian Shao Jun Xiao 13 29 0 08 Dec 2021
Transformer in Transformer Kai Han An Xiao Enhua Wu Jianyuan Guo Chunjing Xu Yunhe Wang ViT 282 1,518 0 27 Feb 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 263 3,604 0 24 Feb 2021
Bottleneck Transformers for Visual Recognition A. Srinivas Tsung-Yi Lin Niki Parmar Jonathon Shlens Pieter Abbeel Ashish Vaswani SLR 270 973 0 27 Jan 2021