ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

26 April 2022

Yufei Xu

Jing Zhang

Qiming Zhang

Dacheng Tao

ViT

ArXiv PDF HTML

Papers citing "ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation"

50 / 68 papers shown

Title
Visual Imitation Enables Contextual Humanoid Control Arthur Allshire Hongsuk Choi Junyi Zhang David McAllister Anthony Zhang C. Kim Trevor Darrell Pieter Abbeel Jitendra Malik Angjoo Kanazawa LM&Ro 47 0 0 06 May 2025
Polar Coordinate-Based 2D Pose Prior with Neural Distance Field Qi Gan Sao Mai Nguyen Eric Fenaux Stephan Clémençon Mounîm El Yacoubi 3DH 48 0 0 06 May 2025
Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology A. H. H. Chan Otto Brookes Urs Waldmann Hemal Naik I. Couzin ... Lukas Boesch M. Arandjelovic H. Kühl T. Burghardt Fumihiro Kano 42 0 0 05 May 2025
Learning a General Model: Folding Clothing with Topological Dynamics Yiming Liu Lijun Han Enlin Gu Hesheng Wang AI4CE 46 0 0 29 Apr 2025
Adept: Annotation-Denoising Auxiliary Tasks with Discrete Cosine Transform Map and Keypoint for Human-Centric Pretraining Weizhen He Yunfeng Yan Shixiang Tang Yiheng Deng Yangyang Zhong Pengxin Luo Donglian Qi VLM 86 1 0 29 Apr 2025
ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos Zetong Zhang Manuel Kaufmann Lixin Xue Jie Song Martin R. Oswald 3DH 62 0 0 17 Apr 2025
STEP: Simultaneous Tracking and Estimation of Pose for Animals and Humans Shashikant Verma Harish Katti Soumyaratna Debnath Yamuna Swamy S. Raman 70 0 0 17 Mar 2025
Transfer Learning for Keypoint Detection in Low-Resolution Thermal TUG Test Images Wei-Lun Chen Chia-Yeh Hsieh Yu-Hsiang Kao Kai-Chun Liu Sheng-Yu Peng Yu Tsao 82 0 0 30 Jan 2025
WorldPose: A World Cup Dataset for Global 3D Human Pose Estimation Tianjian Jiang Johsan Billingham Sebastian Müksch Juan Jose Zarate Nicolas Evans Martin R. Oswald Marc Polleyfeys Otmar Hilliges Manuel Kaufmann Jie Song 3DH 47 3 0 06 Jan 2025
Measurement of Medial Elbow Joint Space using Landmark Detection Shizuka Akahori Shotaro Teruya Pragyan Shrestha Yuichi Yoshii Ryuhei Michinobu S. Iizuka I. Kitahara 68 0 0 17 Dec 2024
HandOS: 3D Hand Reconstruction in One Stage Xingyu Chen Zhuheng Song Xiaoke Jiang Yaoqing Hu Junzhi Yu Lei Zhang 3DH HAI 69 0 0 02 Dec 2024
GTA-Net: An IoT-Integrated 3D Human Pose Estimation System for Real-Time Adolescent Sports Posture Correction Shizhe Yuan Li Zhou 3DH 37 5 0 11 Nov 2024
Token Pruning using a Lightweight Background Aware Vision Transformer Sudhakar Sah Ravish Kumar Honnesh Rohmetra Ehsan Saboori ViT 16 0 0 12 Oct 2024
Comparison of marker-less 2D image-based methods for infant pose estimation Lennart Jahn Sarah Flugge Dajie Zhang Luise Poustka Sven Bolte F. Worgotter Peter B Marschik Tomas Kulvicius 38 1 0 07 Oct 2024
Scaling Large Motion Models with Million-Level Human Motions Ye Wang Sipeng Zheng Bin Cao Qianshan Wei Qin Jin Qin Jin Zongqing Lu VGen 40 0 0 04 Oct 2024
Leveraging Anthropometric Measurements to Improve Human Mesh Estimation and Ensure Consistent Body Shapes K. Ludwig Julian Lorenz Daniel Kienzle Tuan Bui Rainer Lienhart 3DH 35 1 0 26 Sep 2024
GateAttentionPose: Enhancing Pose Estimation with Agent Attention and Improved Gated Convolutions Liang Feng Zhixuan Shen Lihua Wen Shiyao Li Ming Xu CVBM 23 0 0 12 Sep 2024
GMFL-Net: A Global Multi-geometric Feature Learning Network for Repetitive Action Counting Jun Li Jinying Wu Qiming Li Feifei Guo 24 0 0 31 Aug 2024
GTPT: Group-based Token Pruning Transformer for Efficient Human Pose Estimation Haonan Wang Jie Liu Jie Tang Gangshan Wu Bo Xu Y. Kevin Chou Yong Wang ViT 27 2 0 15 Jul 2024
STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video Yang Liu Zhiyong Zhang 3DH 48 0 0 14 Jul 2024
Hamba: Single-view 3D Hand Reconstruction with Graph-guided Bi-Scanning Mamba Haoye Dong Aviral Chharia Wenbo Gou Francisco Vicente Carrasco Fernando De la Torre Mamba 40 1 0 12 Jul 2024
Automatic infant 2D pose estimation from videos: comparing seven deep neural network methods Filipe Gama Matej Misar Lukas Navara S. T. Popescu Matej Hoffmann 3DH 36 2 0 25 Jun 2024
Automatic Ultrasound Curve Angle Measurement via Affinity Clustering for Adolescent Idiopathic Scoliosis Evaluation Yihao Zhou T. Lee K. Lai Chonglin Wu Hin Ting Lau ... Shing-Chow Chan W. Chu J. C. Cheng Tsz-Ping Lam Yongping Zheng 25 1 0 06 May 2024
TokenHMR: Advancing Human Mesh Recovery with a Tokenized Pose Representation Sai Kumar Dwivedi Yu Sun Priyanka Patel Yao Feng Michael J. Black 3DH 37 26 0 25 Apr 2024
Guess The Unseen: Dynamic 3D Scene Reconstruction from Partial 2D Glimpses Inhee Lee Byungjun Kim Hanbyul Joo 3DGS 52 5 0 22 Apr 2024
Spot-Compose: A Framework for Open-Vocabulary Object Retrieval and Drawer Manipulation in Point Clouds Oliver Lemke Z. Bauer René Zurbrugg Marc Pollefeys Francis Engelmann Hermann Blum 3DPC 19 10 0 18 Apr 2024
Social-MAE: Social Masked Autoencoder for Multi-person Motion Representation Learning Mahsa Ehsanpour Ian Reid Hamid Rezatofighi ViT 27 0 0 08 Apr 2024
Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot Fabien Baradel M. Armando Salma Galaaoui Romain Brégier Philippe Weinzaepfel Grégory Rogez Thomas Lucas 3DH 33 18 0 22 Feb 2024
Boosting Semi-Supervised 2D Human Pose Estimation by Revisiting Data Augmentation and Consistency Training Huayi Zhou Mukun Luo Fei Jiang Yue Ding Hongtao Lu Kui Jia 37 0 0 18 Feb 2024
Mutual Distillation Learning For Person Re-Identification Huiyuan Fu Kuilong Cui Chuanming Wang Mengshi Qi Huadong Ma 16 0 0 12 Jan 2024
A comprehensive framework for occluded human pose estimation Linhao Xu Lin Zhao Xinxin Sun Di Wang Guangyu Li Kedong Yan CVBM 24 0 0 30 Dec 2023
WHAM: Reconstructing World-grounded Humans with Accurate 3D Motion Soyong Shin Juyong Kim Eni Halilaj Michael J. Black 3DH 18 66 0 12 Dec 2023
Detecting and Restoring Non-Standard Hands in Stable Diffusion Generated Images Yiqun Zhang Zhen Qin Yang Liu Dylan Campbell 9 2 0 07 Dec 2023
A Graph-Based Approach for Category-Agnostic Pose Estimation Or Hirschorn S. Avidan 21 10 0 29 Nov 2023
PViT-6D: Overclocking Vision Transformers for 6D Pose Estimation with Confidence-Level Prediction and Pose Tokens Sebastian Stapf Tobias Bauernfeind Marco Riboldi ViT 13 1 0 29 Nov 2023
SniffyArt: The Dataset of Smelling Persons Mathias Zinnen Azhar Hussian Hang Tran Prathmesh Madhu Andreas K. Maier Vincent Christlein 14 9 0 20 Nov 2023
MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion Roy Kapon Guy Tevet Daniel Cohen-Or Amit H. Bermano DiffM 21 19 0 23 Oct 2023
PACE: Human and Camera Motion Estimation from in-the-wild Videos Muhammed Kocabas Ye Yuan Pavlo Molchanov Yunrong Guo Michael J. Black Otmar Hilliges Jan Kautz Umar Iqbal 3DH 21 14 0 20 Oct 2023
Minimalist and High-Performance Semantic Segmentation with Plain Vision Transformers Yuanduo Hong Jue Wang Weichao Sun Huihui Pan VLM ViT 22 7 0 19 Oct 2023
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion Xian Liu Jian Ren Aliaksandr Siarohin Ivan Skorokhodov Yanyu Li Dahua Lin Xihui Liu Ziwei Liu Sergey Tulyakov 19 57 0 12 Oct 2023
Online Supervised Training of Spaceborne Vision during Proximity Operations using Adaptive Kalman Filtering T. Park Simone DÁmico 16 8 0 20 Sep 2023
SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation Jiaben Chen Huaizu Jiang 3DH 22 6 0 31 Aug 2023
3D-MuPPET: 3D Multi-Pigeon Pose Estimation and Tracking Urs Waldmann A. H. H. Chan Hemal Naik Nagy Máté I. Couzin Oliver Deussen Bastian Goldlücke Fumihiro Kano 19 14 0 29 Aug 2023
Vision-Based Human Pose Estimation via Deep Learning: A Survey Gongjin Lan Yuehua Wu Fei Hu Qi Hao 3DH 19 44 0 26 Aug 2023
Cyclic-Bootstrap Labeling for Weakly Supervised Object Detection Yufei Yin Jiajun Deng Wen-gang Zhou Li Li Houqiang Li 22 3 0 11 Aug 2023
Lightweight Super-Resolution Head for Human Pose Estimation Hong Wang Jie Liu Jie Tang Gangshan Wu 3DH 19 10 0 31 Jul 2023
Improving 2D Human Pose Estimation in Rare Camera Views with Synthetic Data Miroslav Purkrábek Jivrí Matas 14 2 0 13 Jul 2023
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation Yonglin Li Jing Zhang Xiao Teng Long Lan VOS VLM 16 16 0 03 Jul 2023
Towards AGI in Computer Vision: Lessons Learned from GPT and Large Language Models Lingxi Xie Longhui Wei Xiaopeng Zhang Kaifeng Bi Xiaotao Gu Jianlong Chang Qi Tian 21 6 0 14 Jun 2023
Distilling Token-Pruned Pose Transformer for 2D Human Pose Estimation Feixiang Ren ViT 6 2 0 12 Apr 2023