Conditional Positional Encodings for Vision Transformers

22 February 2021

Chunhua Shen

Papers citing "Conditional Positional Encodings for Vision Transformers"

50 / 99 papers shown

Title
Image Recognition with Online Lightweight Vision Transformer: A Survey Zherui Zhang Rongtao Xu Jie Zhou Changwei Wang Xingtian Pei ... Jiguang Zhang Li Guo Longxiang Gao W. Xu Shibiao Xu ViT 110 0 0 06 May 2025
A Comparative Study on Positional Encoding for Time-frequency Domain Dual-path Transformer-based Source Separation Models Kohei Saijo Tetsuji Ogawa 47 1 0 28 Apr 2025
HGFormer: Topology-Aware Vision Transformer with HyperGraph Learning Hao Wang Shuo Zhang Biao Leng ViT 73 0 0 03 Apr 2025
HOTFormerLoc: Hierarchical Octree Transformer for Versatile Lidar Place Recognition Across Ground and Aerial Views Ethan Griffiths Maryam Haghighat Simon Denman Clinton Fookes Milad Ramezani 3DPC 57 0 0 11 Mar 2025
USP: Unified Self-Supervised Pretraining for Image Generation and Understanding Xiangxiang Chu Renda Li Yong Wang 60 0 0 08 Mar 2025
Vision-LSTM: xLSTM as Generic Vision Backbone Benedikt Alkin M. Beck Korbinian Poppel Sepp Hochreiter Johannes Brandstetter VLM 56 42 0 24 Feb 2025
Temporal Logic Specification-Conditioned Decision Transformer for Offline Safe Reinforcement Learning Zijian Guo Weichao Zhou Wenchao Li OffRL 94 2 0 28 Jan 2025
iFormer: Integrating ConvNet and Transformer for Mobile Application Chuanyang Zheng ViT 67 0 0 26 Jan 2025
Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position Encoding Z. Chen Mingxiao Li Z. Chen Nan Du Xiaolong Li Yuexian Zou 53 0 0 19 Jan 2025
MambaIRv2: Attentive State Space Restoration Hang Guo Yong Guo Yaohua Zha Yulun Zhang W. J. Li Tao Dai Shu-Tao Xia Yawei Li Mamba 118 12 0 22 Nov 2024
Find Any Part in 3D Ziqi Ma Yisong Yue Georgia Gkioxari 3DPC 113 3 0 20 Nov 2024
Breaking the Low-Rank Dilemma of Linear Attention Qihang Fan Huaibo Huang Ran He 33 0 0 12 Nov 2024
TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning Xiangyu Zeng Kunchang Li Chenting Wang Xinhao Li Tianxiang Jiang ... Zhengrong Yue Yi Wang Yali Wang Yu Qiao Limin Wang MLLM VLM AI4TS 69 14 0 25 Oct 2024
Brain-Inspired Stepwise Patch Merging for Vision Transformers Yonghao Yu Dongcheng Zhao Guobin Shen Yiting Dong Yi Zeng 45 0 0 11 Sep 2024
A Survey of the Self Supervised Learning Mechanisms for Vision Transformers Asifullah Khan A. Sohail M. Fiaz Mehdi Hassan Tariq Habib Afridi ... Muhammad Zaigham Zaheer Kamran Ali Tangina Sultana Ziaurrehman Tanoli Naeem Akhter 43 3 0 30 Aug 2024
Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets Tianxiao Zhang Wenju Xu Bo Luo Guanghui Wang ViT MDE 36 7 0 28 Jul 2024
Point Transformer V3 Extreme: 1st Place Solution for 2024 Waymo Open Dataset Challenge in Semantic Segmentation Xiaoyang Wu Xiang Xu Lingdong Kong Liang Pan Ziwei Liu Tong He Wanli Ouyang Hengshuang Zhao 33 0 0 21 Jul 2024
LookHere: Vision Transformers with Directed Attention Generalize and Extrapolate A. Fuller Daniel G. Kyrollos Yousef Yassin James R. Green 36 2 0 22 May 2024
Vision Transformer with Sparse Scan Prior Qihang Fan Huaibo Huang Mingrui Chen Ran He ViT 36 5 0 22 May 2024
Training Transformer Models by Wavelet Losses Improves Quantitative and Visual Performance in Single Image Super-Resolution Cansu Korkmaz A. Murat Tekalp ViT 36 6 0 17 Apr 2024
Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation Sina Hajimiri Ismail Ben Ayed Jose Dolz VLM 33 22 0 12 Apr 2024
Equipping Sketch Patches with Context-Aware Positional Encoding for Graphic Sketch Representation Sicong Zang Zhijun Fang 34 0 0 26 Mar 2024
FViT: A Focal Vision Transformer with Gabor Filter Yulong Shi Mingwei Sun Yongshuai Wang Rui Wang 47 4 0 17 Feb 2024
Beyond Subspace Isolation: Many-to-Many Transformer for Light Field Image Super-resolution Zeke Zexi Hu Xiaoming Chen Yuk Ying Chung Yiran Shen 20 1 0 01 Jan 2024
SCHEME: Scalable Channel Mixer for Vision Transformers Deepak Sridhar Yunsheng Li Nuno Vasconcelos 18 0 0 01 Dec 2023
TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition Meng Lou Hong-Yu Zhou Sibei Yang Yizhou Yu Chuan Wu Yizhou Yu ViT 36 36 0 30 Oct 2023
CoinSeg: Contrast Inter- and Intra- Class Representations for Incremental Segmentation Zekang Zhang Guangyu Gao Jianbo Jiao C. Liu Yunchao Wei 46 20 0 10 Oct 2023
Low-Resolution Self-Attention for Semantic Segmentation Yu-Huan Wu Shi-Chen Zhang Yun-Hai Liu Le Zhang Xin Zhan Daquan Zhou Jiashi Feng Ming-Ming Cheng Liangli Zhen ViT 32 3 0 08 Oct 2023
Improving FHB Screening in Wheat Breeding Using an Efficient Transformer Model Babak Azad A. Abdalla Kwanghee Won A. M. Nafchi MedIm 16 2 0 07 Aug 2023
Building Blocks for a Complex-Valued Transformer Architecture Florian Eilers Xiaoyi Jiang ViT 24 6 0 16 Jun 2023
Lightweight Vision Transformer with Bidirectional Interaction Qihang Fan Huaibo Huang Xiaoqiang Zhou Ran He ViT 34 28 0 01 Jun 2023
MaxViT-UNet: Multi-Axis Attention for Medical Image Segmentation Abdul Rehman Khan Asifullah Khan ViT MedIm 34 14 0 15 May 2023
MTLSegFormer: Multi-task Learning with Transformers for Semantic Segmentation in Precision Agriculture D. Gonçalves J. M. Junior Pedro Zamboni H. Pistori Jonathan Li Keiller Nogueira W. Gonçalves 35 5 0 04 May 2023
TransFlow: Transformer as Flow Learner Yawen Lu Qifan Wang Siqi Ma Tong Geng Victor Y. Chen Huaijin Chen Dongfang Liu ViT 25 45 0 23 Apr 2023
Multi-scale Hierarchical Vision Transformer with Cascaded Attention Decoding for Medical Image Segmentation Md Mostafijur Rahman R. Marculescu MedIm ViT 19 42 0 29 Mar 2023
Vision Transformer with Quadrangle Attention Qiming Zhang Jing Zhang Yufei Xu Dacheng Tao ViT 19 38 0 27 Mar 2023
FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization Pavan Kumar Anasosalu Vasu J. Gabriel Jeff J. Zhu Oncel Tuzel Anurag Ranjan ViT 28 149 0 24 Mar 2023
Sequential Spatial Network for Collision Avoidance in Autonomous Driving Haichuan Li Liguo Zhou Zhenshan Bing M. Khatun Rolf Jung Alois C. Knoll 8 1 0 12 Mar 2023
Single Cells Are Spatial Tokens: Transformers for Spatial Transcriptomic Data Imputation Haifang Wen Wenzhuo Tang Wei Jin Jiayuan Ding Renming Liu Xinnan Dai Feng Shi Lulu Shang Jiliang Tang Yuying Xie 27 8 0 06 Feb 2023
Exploiting Optical Flow Guidance for Transformer-Based Video Inpainting Kaiwen Zhang Jialun Peng Jingjing Fu Dong Liu ViT 19 8 0 24 Jan 2023
A New Perspective to Boost Vision Transformer for Medical Image Classification Yuexiang Li Yawen Huang Nanjun He Kai Ma Yefeng Zheng ViT MedIm 21 3 0 03 Jan 2023
Representation Separation for Semantic Segmentation with Vision Transformers Yuanduo Hong Huihui Pan Weichao Sun Xinghu Yu Huijun Gao ViT 19 5 0 28 Dec 2022
Meta Architecture for Point Cloud Analysis Haojia Lin Xiawu Zheng Lijiang Li Fei Chao Sha Wang Yan Wang Yonghong Tian Rongrong Ji 3DPC 25 45 0 26 Nov 2022
Grafting Vision Transformers Jong Sung Park Kumara Kahatapitiya Donghyun Kim Shivchander Sudalairaj Quanfu Fan Michael S. Ryoo ViT 21 2 0 28 Oct 2022
Clinically-Inspired Multi-Agent Transformers for Disease Trajectory Forecasting from Multimodal Data Huy Hoang Nguyen Matthew B. Blaschko S. Saarakkala A. Tiulpin MedIm AI4CE 48 15 0 25 Oct 2022
Boosting vision transformers for image retrieval Chull Hwan Song Jooyoung Yoon Shunghyun Choi Yannis Avrithis ViT 22 31 0 21 Oct 2022
Transformers Learn Shortcuts to Automata Bingbin Liu Jordan T. Ash Surbhi Goel A. Krishnamurthy Cyril Zhang OffRL LRM 26 155 0 19 Oct 2022
Sequence and Circle: Exploring the Relationship Between Patches Zhengyang Yu Jochen Triesch ViT 20 0 0 18 Oct 2022
TokenMixup: Efficient Attention-guided Token-level Data Augmentation for Transformers Hyeong Kyu Choi Joonmyung Choi Hyunwoo J. Kim ViT 23 35 0 14 Oct 2022
Improved Image Classification with Token Fusion Keong-Hun Choi Jin-Woo Kim Yaolong Wang J. Ha ViT 17 0 0 19 Aug 2022