ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

2 January 2023

In So Kweon

Papers citing "ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders"

50 / 325 papers shown

Title
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation Sang-Hoon Lee Ha-Yeong Choi Seong-Whan Lee OOD DiffM AI4TS 43 5 0 14 Aug 2024
Whitening Consistently Improves Self-Supervised Learning András Kalapos Bálint Gyires-Tóth SSL 37 0 0 14 Aug 2024
CNN-JEPA: Self-Supervised Pretraining Convolutional Neural Networks Using Joint Embedding Predictive Architecture András Kalapos Bálint Gyires-Tóth 40 2 0 14 Aug 2024
Masked Image Modeling: A Survey Vlad Hondru Florinel-Alin Croitoru Shervin Minaee Radu Tudor Ionescu N. Sebe 64 6 0 13 Aug 2024
MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection Zitian Wang Zehao Huang Yulu Gao Naiyan Wang Si Liu 3DPC 43 4 0 12 Aug 2024
Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization Changtao Miao Qi Chu Tao Gong Zhentao Tan Zhenchao Jin Wanyi Zhuang Man Luo Honggang Hu Nenghai Yu CVBM 46 1 0 05 Aug 2024
Medical SAM 2: Segment medical images as video via Segment Anything Model 2 Jiayuan Zhu Yunli Qi A. El Abbadi VLM MedIm 34 66 0 01 Aug 2024
Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? Richard Ren Steven Basart Adam Khoja Alice Gatti Long Phan ... Alexander Pan Gabriel Mukobi Ryan H. Kim Stephen Fitz Dan Hendrycks ELM 26 19 0 31 Jul 2024
DFE-IANet: A Method for Polyp Image Classification Based on Dual-domain Feature Extraction and Interaction Attention Wei Wang Jixing He Xin Wang 41 0 0 30 Jul 2024
Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning Xingchen Zeng Haichuan Lin Yilin Ye Wei Zeng 48 15 0 29 Jul 2024
UNQA: Unified No-Reference Quality Assessment for Audio, Image, Video, and Audio-Visual Content Y. Cao Xiongkuo Min Yixuan Gao Wei Sun Weisi Lin Guangtao Zhai 44 2 0 29 Jul 2024
Flexible graph convolutional network for 3D human pose estimation Abu Taib u 26 A.BenHamza 3DH GNN 24 0 0 26 Jul 2024
Estimating Earthquake Magnitude in Sentinel-1 Imagery via Ranking Daniele Rege Cambrin Isaac Corley Paolo Garza Peyman Najafirad 18 0 0 25 Jul 2024
The Group Robustness is in the Details: Revisiting Finetuning under Spurious Correlations Tyler LaBonte John C. Hill Xinchen Zhang Vidya Muthukumar Abhishek Kumar AAML 41 0 0 19 Jul 2024
GroupMamba: Efficient Group-Based Visual State Space Model Abdelrahman M. Shaker Syed Talal Wasim Salman Khan Juergen Gall Fahad Shahbaz Khan Mamba 51 0 0 18 Jul 2024
AFIDAF: Alternating Fourier and Image Domain Adaptive Filters as an Efficient Alternative to Attention in ViTs Yunling Zheng Zeyi Xu Fanghui Xue Biao Yang Jiancheng Lyu Shuai Zhang Y. Qi Jack Xin 44 0 0 16 Jul 2024
SegSTRONG-C: Segmenting Surgical Tools Robustly On Non-adversarial Generated Corruptions -- An EndoVis'24 Challenge Hao Ding Tuxun Lu Yuqian Zhang Ruixing Liang Hongchao Shu ... Bo Wang Marcos Fernández-Rodríguez Estevao Lima João L. Vilaça Mathias Unberath 57 4 0 16 Jul 2024
DANIEL: A fast Document Attention Network for Information Extraction and Labelling of handwritten documents Thomas Constum Pierrick Tranouez Thierry Paquet 27 5 0 12 Jul 2024
Revealing the Dark Secrets of Extremely Large Kernel ConvNets on Robustness Honghao Chen Yurong Zhang Xiaokun Feng Xiangxiang Chu Kaiqi Huang AAML 35 5 0 12 Jul 2024
Adaptive Parametric Activation Konstantinos Panagiotis Alexandridis Jiankang Deng Anh Nguyen Shan Luo 39 2 0 11 Jul 2024
MNeRV: A Multilayer Neural Representation for Videos Qingling Chang Haohui Yu Shuxuan Fu Zhiqiang Zeng Chuangquan Chen 31 0 0 10 Jul 2024
AnatoMask: Enhancing Medical Image Segmentation with Reconstruction-guided Self-masking Yuheng Li Tianyu Luan Yizhou Wu Shaoyan Pan Yenho Chen Xiaofeng Yang 35 4 0 09 Jul 2024
Isomorphic Pruning for Vision Models Gongfan Fang Xinyin Ma Michael Bi Mi Xinchao Wang VLM ViT 34 6 0 05 Jul 2024
reBEN: Refined BigEarthNet Dataset for Remote Sensing Image Analysis Kai Norman Clasen L. Hackel Tom Burgert Gencer Sumbul Begum Demir Volker Markl 55 11 0 04 Jul 2024
Precision at Scale: Domain-Specific Datasets On-Demand Jesús M. Rodríguez-de-Vera Imanol G. Estepa Ignacio Sarasúa Bhalaji Nagarajan P. Radeva 34 2 0 03 Jul 2024
AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents Yuxiang Chai Siyuan Huang Yazhe Niu Han Xiao Liang Liu Dingyu Zhang Peng Gao Shuai Ren Hongsheng Li LLMAG 33 25 0 03 Jul 2024
ZEAL: Surgical Skill Assessment with Zero-shot Tool Inference Using Unified Foundation Model Satoshi Kondo 15 0 0 03 Jul 2024
LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control Jianzhu Guo Dingyun Zhang Xiaoqiang Liu Zhizhou Zhong Yuan Zhang Pengfei Wan Di Zhang VGen 59 53 0 03 Jul 2024
HouseCrafter: Lifting Floorplans to 3D Scenes with 2D Diffusion Model Hieu T. Nguyen Yiwen Chen Vikram S. Voleti Varun Jampani Huaizu Jiang 51 0 0 28 Jun 2024
SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues Yuxin Xie Tao Zhou Yi Zhou Geng Chen VLM MedIm 16 1 0 27 Jun 2024
VIPriors 4: Visual Inductive Priors for Data-Efficient Deep Learning Challenges Robert-Jan Bruintjes A. Lengyel Marcos Baptista-Rios O. Kayhan Davide Zambrano Nergis Tomen J. C. V. Gemert VLM 42 0 0 26 Jun 2024
Fuzzy Attention-based Border Rendering Network for Lung Organ Segmentation Sheng Zhang Yang Nan Yingying Fang Shiyi Wang Xiaodan Xing Zhifan Gao Guang Yang MedIm 35 0 0 23 Jun 2024
Liveness Detection in Computer Vision: Transformer-based Self-Supervised Learning for Face Anti-Spoofing Arman Keresh Pakizar Shamoi 39 5 0 19 Jun 2024
SwinStyleformer is a favorable choice for image inversion Jiawei Mao Guangyi Zhao Xuesong Yin Yuanqi Chang ViT 35 0 0 19 Jun 2024
GeoBench: Benchmarking and Analyzing Monocular Geometry Estimation Models Yongtao Ge Guangkai Xu Zhiyue Zhao Libo Sun Zheng Huang Yanlong Sun Hao Chen Chunhua Shen MDE 42 3 0 18 Jun 2024
FreeV: Free Lunch For Vocoders Through Pseudo Inversed Mel Filter Yuanjun Lv Hai Li Ying Yan Junhui Liu Danming Xie Lei Xie 48 1 0 12 Jun 2024
Low-Complexity Acoustic Scene Classification Using Parallel Attention-Convolution Network Yanxiong Li Jiaxin Tan Guoqing Chen Jialong Li Yongjie Si Qianhua He 19 0 0 12 Jun 2024
$A$^{2}$-MAE: A spatial-temporal-spectral unified remote sensing pre-training method based on anchor-aware masked autoencoder$ A $^{2}$ -MAE: A spatial-temporal-spectral unified remote sensing pre-training method based on anchor-aware masked autoencoder Lixian Zhang Yi Zhao Runmin Dong Jinxiao Zhang Shuai Yuan ... Weijia Li Wei Liu Wayne Zhang Litong Feng H. Fu 31 4 0 12 Jun 2024
SRC-Net: Bi-Temporal Spatial Relationship Concerned Network for Change Detection Hongjia Chen Xin Xu Fangling Pu 44 6 0 09 Jun 2024
RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation Jiaming Liu Mengzhen Liu Zhenyu Wang Lily Lee Kaichen Zhou Pengju An Senqiao Yang Renrui Zhang Yandong Guo Shanghang Zhang LM&Ro LRM Mamba 32 5 0 06 Jun 2024
Real-Time Spacecraft Pose Estimation Using Mixed-Precision Quantized Neural Network on COTS Reconfigurable MPSoC Julien Posso Guy Bois Yvon Savaria 25 0 0 06 Jun 2024
JIGMARK: A Black-Box Approach for Enhancing Image Watermarks against Diffusion Model Edits Minzhou Pan Yi Zeng Xue Lin Ning Yu Cho-Jui Hsieh Peter Henderson Ruoxi Jia WIGM 36 3 0 06 Jun 2024
DenoDet: Attention as Deformable Multi-Subspace Feature Denoising for Target Detection in SAR Images Yimian Dai Minrui Zou Yuxuan Li Xiang Li Kang Ni Jian Yang 27 4 0 05 Jun 2024
Multi-Stage Speech Bandwidth Extension with Flexible Sampling Rate Control Ye-Xin Lu Yang Ai Zheng-Yan Sheng Zhen-Hua Ling 21 1 0 04 Jun 2024
BiVocoder: A Bidirectional Neural Vocoder Integrating Feature Extraction and Waveform Generation Hui-Peng Du Ye-Xin Lu Yang Ai Zhen-Hua Ling 35 3 0 04 Jun 2024
fruit-SALAD: A Style Aligned Artwork Dataset to reveal similarity perception in image embeddings Tillmann Ohm Andres Karjus Mikhail Tamm Maximilian Schich 36 1 0 03 Jun 2024
Hybrid-Parallel: Achieving High Performance and Energy Efficient Distributed Inference on Robots Zekai Sun Xiuxian Guan Junming Wang Haoze Song Yuhao Qing Tianxiang Shen Dong Huang Fangming Liu Heming Cui 32 0 0 29 May 2024
Seeing the Image: Prioritizing Visual Correlation by Contrastive Alignment Xin Xiao Bohong Wu Jiacong Wang Chunyuan Li Xun Zhou Haoyuan Guo VLM 34 7 0 28 May 2024
ECG Semantic Integrator (ESI): A Foundation ECG Model Pretrained with LLM-Enhanced Cardiological Text Han Yu Peikun Guo Akane Sano 34 15 0 26 May 2024
What Variables Affect Out-Of-Distribution Generalization in Pretrained Models? Md Yousuf Harun Kyungbok Lee Jhair Gallardo Giri Krishnan Christopher Kanan 31 2 0 23 May 2024