ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

26 April 2022

Jing Zhang

Qiming Zhang

Papers citing "ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation"

19 / 69 papers shown

Title
Distilling Token-Pruned Pose Transformer for 2D Human Pose Estimation Feixiang Ren ViT 6 2 0 12 Apr 2023
GLT-T++: Global-Local Transformer for 3D Siamese Tracking with Ranking Loss Jiahao Nie Zhiwei He Yuxiang Yang Xudong Lv Mingchen Gao Jing Zhang ViT 3DPC 34 7 0 01 Apr 2023
Vision Transformer with Quadrangle Attention Qiming Zhang Jing Zhang Yufei Xu Dacheng Tao ViT 19 38 0 27 Mar 2023
Human Pose as Compositional Tokens Zigang Geng Chunyu Wang Yixuan Wei Ze Liu Houqiang Li Han Hu 23 47 0 21 Mar 2023
PoseRAC: Pose Saliency Transformer for Repetitive Action Counting Ziyu Yao Xuxin Cheng Yuexian Zou ViT 16 19 0 15 Mar 2023
iBall: Augmenting Basketball Videos with Gaze-moderated Embedded Visualizations Zhutian Chen Qisen Yang Jiarui Shan Tica Lin Johanna Beyer Haijun Xia Hanspeter Pfister 19 28 0 06 Mar 2023
Unsupervised Volumetric Animation Aliaksandr Siarohin Willi Menapace Ivan Skorokhodov Kyle Olszewski Jian Ren Hsin-Ying Lee Menglei Chai Sergey Tulyakov 33 20 0 26 Jan 2023
Localizing Scan Targets from Human Pose for Autonomous Lung Ultrasound Imaging Jia-Li Long Jicang Cai Abdullah F. Al-Battal Shiwei Jin Jing Zhang Dacheng Tao Truong Thao Nguyen 20 0 0 15 Dec 2022
CroCo v2: Improved Cross-view Completion Pre-training for Stereo Matching and Optical Flow Philippe Weinzaepfel Thomas Lucas Vincent Leroy Yohann Cabon Vaibhav Arora Romain Brégier G. Csurka L. Antsfeld Boris Chidlovskii Jérôme Revaud ViT 15 79 0 18 Nov 2022
Expediting Large-Scale Vision Transformer for Dense Prediction without Fine-tuning Weicong Liang Yuhui Yuan Henghui Ding Xiao Luo Weihong Lin Ding Jia Zheng-Wei Zhang Chao Zhang Hanhua Hu 17 25 0 03 Oct 2022
APT-36K: A Large-scale Benchmark for Animal Pose Estimation and Tracking Yuxiang Yang Junjie Yang Yufei Xu Jing Zhang Long Lan Dacheng Tao 11 38 0 12 Jun 2022
From Keypoints to Object Landmarks via Self-Training Correspondence: A novel approach to Unsupervised Landmark Discovery Dimitrios Mallis Enrique Sanchez Matt Bell Georgios Tzimiropoulos SSL 3DPC 28 6 0 31 May 2022
VSA: Learning Varied-Size Window Attention in Vision Transformers Qiming Zhang Yufei Xu Jing Zhang Dacheng Tao 22 50 0 18 Apr 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,337 0 11 Nov 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 263 3,538 0 24 Feb 2021
TransPose: Keypoint Localization via Transformer Sen Yang Zhibin Quan Mu Nie Wankou Yang ViT 135 252 0 28 Dec 2020
Peeking into occluded joints: A novel framework for crowd pose estimation Lingteng Qiu Xuanye Zhang Yanran Li Guanbin Li Xiaojun Wu Zixiang Xiong Xiaoguang Han Shuguang Cui 86 71 0 23 Mar 2020
Learning Delicate Local Representations for Multi-Person Pose Estimation Yuanhao Cai Zhicheng Wang Zhengxiong Luo Binyi Yin Angang Du Haoqian Wang X. Zhang Xinyu Zhou Erjin Zhou Jian-jun Sun 103 169 0 09 Mar 2020
Towards High Performance Human Keypoint Detection Jing Zhang Zhe Chen Dacheng Tao 3DH 80 70 0 03 Feb 2020