Title
Adept: Annotation-Denoising Auxiliary Tasks with Discrete Cosine Transform Map and Keypoint for Human-Centric Pretraining Weizhen He Yunfeng Yan Shixiang Tang Yiheng Deng Yangyang Zhong Pengxin Luo Donglian Qi VLM 86 1 0 29 Apr 2025
Image captioning in different languages Emiel van Miltenburg VLM 37 0 0 31 May 2024
TokenHMR: Advancing Human Mesh Recovery with a Tokenized Pose Representation Sai Kumar Dwivedi Yu Sun Priyanka Patel Yao Feng Michael J. Black 3DH 42 27 0 25 Apr 2024
Active headrest combined with a depth camera-based ear-positioning system Yuteng Liu Haowen Li Haishan Zou Jing Lu Zhibin Lin 18 0 0 25 Dec 2023
You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception Sheng Jin Shuhuai Li Tong Li Wentao Liu Chao Qian Ping Luo 29 5 0 09 Dec 2023
RTMPose: Real-Time Multi-Person Pose Estimation based on MMPose Tao Jiang Peng Lu Li Zhang Ning Ma Rui Han Chengqi Lyu Yining Li Kai-xiang Chen 3DH 31 155 0 13 Mar 2023
Localizing Scan Targets from Human Pose for Autonomous Lung Ultrasound Imaging Jia-Li Long Jicang Cai Abdullah F. Al-Battal Shiwei Jin Jing Zhang Dacheng Tao Truong Thao Nguyen 20 0 0 15 Dec 2022
Benchmarking and Analyzing 3D Human Pose and Shape Estimation Beyond Algorithms Huijuan Pang Zhongang Cai Lei Yang Tianwei Zhang Ziwei Liu 3DH 41 28 0 21 Sep 2022
ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Yufei Xu Jing Zhang Qiming Zhang Dacheng Tao ViT 22 509 0 26 Apr 2022
2D Human Pose Estimation: A Survey Haoming Chen Runyang Feng Sifan Wu Hao Xu F. Zhou Zhenguang Liu 3DH 21 55 0 15 Apr 2022
Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark Jiaxi Gu Xiaojun Meng Guansong Lu Lu Hou Minzhe Niu ... Runhu Huang Wei Zhang Xingda Jiang Chunjing Xu Hang Xu VLM 35 86 0 14 Feb 2022
ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation Han Zhang Weichong Yin Yewei Fang Lanxin Li Boqiang Duan Zhihua Wu Yu Sun Hao Tian Hua-Hong Wu Haifeng Wang 27 58 0 31 Dec 2021
EfficientCLIP: Efficient Cross-Modal Pre-training by Ensemble Confident Learning and Language Modeling Jue Wang Haofan Wang Jincan Deng Weijia Wu Debing Zhang VLM CLIP 57 18 0 10 Sep 2021
VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the Wild Yifu Zhang Chunyu Wang Xinggang Wang Wenyu Liu Wenjun Zeng 3DH 19 73 0 05 Aug 2021
Hard hat wearing detection based on head keypoint localization Bartosz Wójcik M. Żarski Kamil Książek J. Miszczak M. Skibniewski 8 5 0 21 Jun 2021
Whole-Body Human Pose Estimation in the Wild Sheng Jin Lumin Xu Jin Xu Can Wang Wentao Liu Chao Qian Wanli Ouyang Ping Luo 3DH 133 236 0 23 Jul 2020
Self-supervised Keypoint Correspondences for Multi-Person Pose Estimation and Tracking in Videos U. Rafi Andreas Doering Bastian Leibe Juergen Gall 3DH 14 41 0 27 Apr 2020
Deep High-Resolution Representation Learning for Visual Recognition Jingdong Wang Ke Sun Tianheng Cheng Borui Jiang Chaorui Deng ... Yadong Mu Mingkui Tan Xinggang Wang Wenyu Liu Bin Xiao 190 3,527 0 20 Aug 2019
Unpaired Cross-lingual Image Caption Generation with Self-Supervised Rewards Yuqing Song Shizhe Chen Yida Zhao Qin Jin SSL 21 40 0 15 Aug 2019
Generalizing Monocular 3D Human Pose Estimation in the Wild Luyang Wang Yan Chen Zhenhua Guo Keyuan Qian Mude Lin Hongsheng Li Jimmy S. J. Ren 3DH 11 36 0 11 Apr 2019
Detector-in-Detector: Multi-Level Analysis for Human-Parts Xiaojie Li L. Yang Q. Song Fuqiang Zhou CVBM 3DH 10 16 0 19 Feb 2019
COCO-CN for Cross-Lingual Image Tagging, Captioning and Retrieval Xirong Li Chaoxi Xu Xiaoxu Wang Weiyu Lan Zhengxiong Jia Gang Yang Jieping Xu 14 148 0 22 May 2018