EVA-02: A Visual Representation for Neon Genesis

20 March 2023

Papers citing "EVA-02: A Visual Representation for Neon Genesis"

47 / 47 papers shown

Title
TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation Haokun Lin Teng Wang Yixiao Ge Yuying Ge Zhichao Lu Ying Wei Qingfu Zhang Zhenan Sun Ying Shan MLLM VLM 61 0 0 08 May 2025
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception Junjie Wang Bin Chen Yulin Li Bin Kang Y. Chen Zhuotao Tian VLM 36 0 0 07 May 2025
Towards Improved Cervical Cancer Screening: Vision Transformer-Based Classification and Interpretability K. T. Nguyen Ho-min Park Gaeun Oh J. Vankerschaver W. D. Neve MedIm 28 0 0 30 Apr 2025
ClearVision: Leveraging CycleGAN and SigLIP-2 for Robust All-Weather Classification in Traffic Camera Imagery Anush Lakshman Sivaraman Kojo Adu-Gyamfi Ibne Farabi Shihab Anuj Sharma 17 0 0 28 Apr 2025
CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis Alexander Baumann Leonardo Ayala S. Jan Sellner Alexander Studier-Fischer Berkin Özdemir Lena Maier-Hein Slobodan Ilic 44 0 0 27 Apr 2025
What is the Added Value of UDA in the VFM Era? B. B. Englert Tommie Kerssies Gijs Dubbelman 32 0 0 25 Apr 2025
Perception Encoder: The best visual embeddings are not at the output of the network Daniel Bolya Po-Yao (Bernie) Huang Peize Sun Jang Hyun Cho Andrea Madotto ... Shiyu Dong Nikhila Ravi Daniel Li Piotr Dollár Christoph Feichtenhofer ObjD VOS 103 0 0 17 Apr 2025
Simultaneous Learning of Optimal Transports for Training All-to-All Flow-Based Condition Transfer Model Kotaro Ikeda Masanori Koyama Jinzhe Zhang Kohei Hayashi Kenji Fukumizu OT 54 0 0 04 Apr 2025
Direction-Aware Diagonal Autoregressive Image Generation Yijia Xu Jianzhong Ju Jian Luan J. Cui 45 0 0 14 Mar 2025
CLIMB: Data Foundations for Large Scale Multimodal Clinical Foundation Models Wei Dai Peilin Chen Malinda Lu Daniel Li Haowen Wei Hejie Cui Paul Pu Liang LM&MA 44 1 0 09 Mar 2025
Is Your Video Language Model a Reliable Judge? M. Liu Wensheng Zhang 52 1 0 07 Mar 2025
Towards High-performance Spiking Transformers from ANN to SNN Conversion Zihan Huang Xinyu Shi Zecheng Hao Tong Bu Jianhao Ding Zhaofei Yu Tiejun Huang 28 7 0 28 Feb 2025
Where am I? Cross-View Geo-localization with Natural Language Descriptions Junyan Ye Honglin Lin Leyan Ou Dairong Chen Zihao Wang Conghui He Weijia Li Weijia Li 76 0 0 22 Dec 2024
IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks Yaming Zhang Chenqiang Gao Fangcen Liu Junjie Guo Lan Wang Xinggan Peng Deyu Meng 83 0 0 21 Dec 2024
GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding Haoyi Jiang Liu Liu Tianheng Cheng Xinjie Wang Tianwei Lin Zhizhong Su W. Liu X. Wang 3DGS ViT 99 5 0 17 Dec 2024
SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer H. Chen Z. Wang X. Li X. Sun Fangyi Chen Jiang Liu J. Wang Bhiksha Raj Zicheng Liu Emad Barsoum VLM 103 6 0 14 Dec 2024
jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images Andreas Koukounas Georgios Mastrapas Bo Wang Mohammad Kalim Akram Sedigheh Eslami Michael Gunther Isabelle Mohr Saba Sturua Scott Martens Nan Wang VLM 90 6 0 11 Dec 2024
TIPS: Text-Image Pretraining with Spatial awareness Kevis-Kokitsi Maninis Kaifeng Chen Soham Ghosh Arjun Karpur Koert Chen ... Jan Dlabal Dan Gnanapragasam Mojtaba Seyedhosseini Howard Zhou Andre Araujo VLM 30 3 0 21 Oct 2024
Locality Alignment Improves Vision-Language Models Ian Covert Tony Sun James Y. Zou Tatsunori Hashimoto VLM 58 3 0 14 Oct 2024
Seeing Through the Mask: Rethinking Adversarial Examples for CAPTCHAs Yahya Jabary Andreas Plesner Turlan Kuzhagaliyev Roger Wattenhofer AAML 14 0 0 09 Sep 2024
PitVis-2023 Challenge: Workflow Recognition in videos of Endoscopic Pituitary Surgery Adrito Das Danyal Z. Khan Dimitrios Psychogyios Yitong Zhang John G. Hanrahan ... Santiago Rodriguez Pablo Arbelaez Danail Stoyanov Hani J. Marcus Sophia Bano 16 5 0 02 Sep 2024
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan VLM 53 216 0 10 Jun 2024
SPAFormer: Sequential 3D Part Assembly with Transformers Boshen Xu Sipeng Zheng Qin Jin 26 2 0 09 Mar 2024
Masked Attribute Description Embedding for Cloth-Changing Person Re-identification Chunlei Peng Boyu Wang Decheng Liu Nannan Wang Ruimin Hu Xinbo Gao CVBM 15 3 0 11 Jan 2024
MERBench: A Unified Evaluation Benchmark for Multimodal Emotion Recognition Zheng Lian Licai Sun Yong Ren Hao Gu Haiyang Sun Lan Chen Bin Liu Jianhua Tao 11 12 0 07 Jan 2024
Morphing Tokens Draw Strong Masked Image Models Taekyung Kim Byeongho Heo Dongyoon Han 31 3 0 30 Dec 2023
4M: Massively Multimodal Masked Modeling David Mizrahi Roman Bachmann Ouguzhan Fatih Kar Teresa Yeo Mingfei Gao Afshin Dehghan Amir Zamir MLLM 23 62 0 11 Dec 2023
Detect Everything with Few Examples Xinyu Zhang Yuting Wang Abdeslam Boularias ObjD VLM 21 13 0 22 Sep 2023
A Parameter-efficient Multi-subject Model for Predicting fMRI Activity Connor Lane Gregory Kiar 11 2 0 04 Aug 2023
ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation Yasheng Sun Yifan Yang Houwen Peng Yifei Shen Yuqing Yang Hang-Rui Hu Lili Qiu Hideki Koike DiffM LM&Ro 19 33 0 02 Aug 2023
Foundational Models Defining a New Era in Vision: A Survey and Outlook Muhammad Awais Muzammal Naseer Salman Khan Rao Muhammad Anwer Hisham Cholakkal M. Shah Ming Yang F. Khan VLM 13 116 0 25 Jul 2023
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest Shilong Zhang Pei Sun Shoufa Chen Min Xiao Wenqi Shao Wenwei Zhang Yu Liu Kai-xiang Chen Ping Luo VLM MLLM 80 222 0 07 Jul 2023
EVA-CLIP: Improved Training Techniques for CLIP at Scale Quan-Sen Sun Yuxin Fang Ledell Yu Wu Xinlong Wang Yue Cao CLIP VLM 21 459 0 27 Mar 2023
Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection Shihao Wang Yingfei Liu Tiancai Wang Ying Li Xiangyu Zhang 3DPC 27 188 0 21 Mar 2023
EVA: Exploring the Limits of Masked Visual Representation Learning at Scale Yuxin Fang Wen Wang Binhui Xie Quan-Sen Sun Ledell Yu Wu Xinggang Wang Tiejun Huang Xinlong Wang Yue Cao VLM CLIP 20 671 0 14 Nov 2022
MobileViTv3: Mobile-Friendly Vision Transformer with Simple and Effective Fusion of Local, Global and Input Features S. Wadekar Abhishek Chaurasia ViT 90 85 0 30 Sep 2022
Exploring Target Representations for Masked Autoencoders Xingbin Liu Jinghao Zhou Tao Kong Xianming Lin Rongrong Ji 70 49 0 08 Sep 2022
Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via Feature Distillation Yixuan Wei Han Hu Zhenda Xie Zheng-Wei Zhang Yue Cao Jianmin Bao Dong Chen B. Guo CLIP 78 123 0 27 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,337 0 11 Nov 2021
ResNet strikes back: An improved training procedure in timm Ross Wightman Hugo Touvron Hervé Jégou AI4TS 198 477 0 01 Oct 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,735 0 24 Feb 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 845 0 17 Feb 2021
Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation Golnaz Ghiasi Yin Cui A. Srinivas Rui Qian Tsung-Yi Lin E. D. Cubuk Quoc V. Le Barret Zoph ISeg 223 835 0 13 Dec 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 220 3,054 0 23 Jan 2020
Semantic Understanding of Scenes through the ADE20K Dataset Bolei Zhou Hang Zhao Xavier Puig Tete Xiao Sanja Fidler Adela Barriuso Antonio Torralba SSeg 243 1,817 0 18 Aug 2016
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 279 39,083 0 01 Sep 2014