Title
DINOv2: Learning Robust Visual Features without Supervision Maxime Oquab Timothée Darcet Théo Moutakanni Huy Q. Vo Marc Szafraniec ... Hervé Jégou Julien Mairal Patrick Labatut Armand Joulin Piotr Bojanowski VLM CLIP SSL 52 3,011 0 14 Apr 2023
Temporal Enhanced Training of Multi-view 3D Object Detector via Historical Object Prediction Zhuofan Zong Dong Jiang Guanglu Song Zeyue Xue Jingyong Su Hongsheng Li Yu Liu 35 35 0 03 Apr 2023
DDP: Diffusion Model for Dense Visual Prediction Yuanfeng Ji Zhe Chen Enze Xie Lanqing Hong Xihui Liu Zhaoqiang Liu Tong Lu Zhenguo Li Ping Luo DiffM VLM 31 129 0 30 Mar 2023
InceptionNeXt: When Inception Meets ConvNeXt Weihao Yu Pan Zhou Shuicheng Yan Xinchao Wang 34 117 0 29 Mar 2023
A Region-Prompted Adapter Tuning for Visual Abductive Reasoning Hao Zhang Yeo Keat Ee Basura Fernando VLM 27 3 0 18 Mar 2023
Grid-Centric Traffic Scenario Perception for Autonomous Driving: A Comprehensive Review Yining Shi Kun Jiang Jiusi Li Zelin Qian Jun Wen Mengmeng Yang Ke Wang Diange Yang 76 25 0 02 Mar 2023
Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling Keyu Tian Yi-Xin Jiang Qishuai Diao Chen Lin Liwei Wang Zehuan Yuan 25 98 0 09 Jan 2023
Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation Yue Han Jiangning Zhang Zhucun Xue Chao Xu Xintian Shen Yabiao Wang Chengjie Wang Yong Liu Xiangtai Li 27 17 0 03 Jan 2023
DETRs with Collaborative Hybrid Assignments Training Zhuofan Zong Guanglu Song Yu Liu ViT 24 304 0 22 Nov 2022
Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via Feature Distillation Yixuan Wei Han Hu Zhenda Xie Zheng-Wei Zhang Yue Cao Jianmin Bao Dong Chen B. Guo CLIP 83 124 0 27 May 2022
Transformer in Transformer Kai Han An Xiao Enhua Wu Jianyuan Guo Chunjing Xu Yunhe Wang ViT 282 1,518 0 27 Feb 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 263 3,604 0 24 Feb 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 1,081 0 17 Feb 2021
Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation Golnaz Ghiasi Yin Cui A. Srinivas Rui Qian Tsung-Yi Lin E. D. Cubuk Quoc V. Le Barret Zoph ISeg 223 962 0 13 Dec 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 226 4,424 0 23 Jan 2020
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism M. Shoeybi M. Patwary Raul Puri P. LeGresley Jared Casper Bryan Catanzaro MoE 243 1,815 0 17 Sep 2019
CrowdHuman: A Benchmark for Detecting Human in a Crowd Shuai Shao Zijian Zhao Boxun Li Tete Xiao Gang Yu Xiangyu Zhang Jian-jun Sun 211 672 0 30 Apr 2018
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications Andrew G. Howard Menglong Zhu Bo Chen Dmitry Kalenichenko Weijun Wang Tobias Weyand M. Andreetto Hartwig Adam 3DH 948 20,471 0 17 Apr 2017
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 263 10,196 0 16 Nov 2016
Xception: Deep Learning with Depthwise Separable Convolutions François Chollet MDE BDL PINN 201 14,304 0 07 Oct 2016