Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks

2 December 2021

Papers citing "Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks"

50 / 117 papers shown

Title
Visual Instruction Tuning with Chain of Region-of-Interest Yixin Chen Shuai Zhang Boran Han Bernie Wang 18 0 0 11 May 2025
Learning Streaming Video Representation via Multitask Training Yibin Yan Jilan Xu Shangzhe Di Yikun Liu Yudi Shi Qirui Chen Zeqian Li Yifei Huang Weidi Xie CLL 76 0 0 28 Apr 2025
A Survey on Remote Sensing Foundation Models: From Vision to Multimodality Ziyue Huang Hongxi Yan Qiqi Zhan Shuai Yang Mingming Zhang Chenkai Zhang Yiming Lei Zeming Liu Qingjie Liu Y. Wang 42 0 0 28 Mar 2025
UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface Hao Tang Chenwei Xie Haiyang Wang Xiaoyi Bao Tingyu Weng Pandeng Li Yun Zheng Liwei Wang ObjD VLM 54 0 0 03 Mar 2025
Multimodal semantic retrieval for product search Dong Liu Esther Lopez Ramos 36 0 0 13 Jan 2025
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks Jiannan Wu Muyan Zhong Sen Xing Zeqiang Lai Zhaoyang Liu ... Lewei Lu Tong Lu Ping Luo Yu Qiao Jifeng Dai MLLM VLM LRM 88 45 0 03 Jan 2025
LQ-Adapter: ViT-Adapter with Learnable Queries for Gallbladder Cancer Detection from Ultrasound Image Chetan Madan Mayuna Gupta Soumen Basu Pankaj Gupta Chetan Arora 78 0 0 30 Nov 2024
Tra-MoE: Learning Trajectory Prediction Model from Multiple Domains for Adaptive Policy Conditioning Jiange Yang Haoyi Zhu Y. Wang Gangshan Wu Tong He Limin Wang 86 2 0 21 Nov 2024
Temporal2Seq: A Unified Framework for Temporal Video Understanding Tasks Min Yang Zichen Zhang Limin Wang AI4TS 19 0 0 27 Sep 2024
Frequency-Guided Spatial Adaptation for Camouflaged Object Detection Shizhou Zhang Dexuan Kong Yinghui Xing Yue Lu Lingyan Ran Guoqiang Liang Hexu Wang Yanning Zhang 25 5 0 19 Sep 2024
PartGLEE: A Foundation Model for Recognizing and Parsing Any Objects Junyi Li Junfeng Wu Weizhi Zhao Song Bai Xiang Bai 23 0 0 23 Jul 2024
MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity Yangzhou Liu Yue Cao Zhangwei Gao Weiyun Wang Zhe Chen ... Lewei Lu Xizhou Zhu Tong Lu Yu Qiao Jifeng Dai VLM MLLM 42 22 0 22 Jul 2024
Fine-Grained Scene Image Classification with Modality-Agnostic Adapter Yiqun Wang Zhao Zhou Xiangcheng Du Xingjiao Wu Yingbin Zheng Cheng Jin 34 0 0 03 Jul 2024
Toward a Diffusion-Based Generalist for Dense Vision Tasks Yue Fan Yongqin Xian Xiaohua Zhai Alexander Kolesnikov Muhammad Ferjad Naeem Bernt Schiele Federico Tombari VLM MDE DiffM 29 1 0 29 Jun 2024
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities Roman Bachmann Oğuzhan Fatih Kar David Mizrahi Ali Garjani Mingfei Gao David Griffiths Jiaming Hu Afshin Dehghan Amir Zamir MoE VLM MLLM 25 14 0 13 Jun 2024
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text Qingyun Li Zhe Chen Weiyun Wang Wenhai Wang Shenglong Ye ... Dahua Lin Yu Qiao Botian Shi Conghui He Jifeng Dai VLM OffRL 43 19 0 12 Jun 2024
Generalist Multimodal AI: A Review of Architectures, Challenges and Opportunities Sai Munikoti Ian Stewart Sameera Horawalavithana Henry Kvinge Tegan H. Emerson Sandra E Thompson Karl Pazdernik 35 2 0 08 Jun 2024
Parameter-Inverted Image Pyramid Networks Xizhou Zhu Xue Yang Zhaokai Wang Hao Li Wenhan Dou Junqi Ge Lewei Lu Yu Qiao Jifeng Dai 39 0 0 06 Jun 2024
UniFS: Universal Few-shot Instance Perception with Point Representations Sheng Jin Ruijie Yao Lumin Xu Wentao Liu Chao Qian Ji Wu Ping Luo 35 2 0 30 Apr 2024
From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search Jintao Sun Zhedong Zheng Gangyi Ding Gangyi Ding 28 5 0 16 Apr 2024
In-Context Translation: Towards Unifying Image Recognition, Processing, and Generation Han Xue Qianru Sun Li-Na Song Wenjun Zhang Zhiwu Huang MLLM 36 0 0 15 Apr 2024
Diffusion Models Meet Remote Sensing: Principles, Methods, and Perspectives Yidan Liu Jun Yue Shaobo Xia Pedram Ghamisi Weiying Xie Leyuan Fang DiffM 33 11 0 13 Apr 2024
Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models David Kurzendörfer Otniel-Bogdan Mercea A. Sophia Koepke Zeynep Akata VLM CLIP 14 2 0 09 Apr 2024
GiT: Towards Generalist Vision Transformer through Universal Language Interface Haiyang Wang Hao Tang Li Jiang Shaoshuai Shi Muhammad Ferjad Naeem Hongsheng Li Bernt Schiele Liwei Wang VLM 24 10 0 14 Mar 2024
Masked AutoDecoder is Effective Multi-Task Vision Generalist Han Qiu Jiaxing Huang Peng Gao Lewei Lu Xiaoqin Zhang Shijian Lu 30 3 0 12 Mar 2024
ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions Chunlong Xia Xinliang Wang Feng Lv Xin Hao Yifeng Shi ViT 18 45 0 12 Mar 2024
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models Yang Jiao Shaoxiang Chen Zequn Jie Jing Chen Lin Ma Yueping Jiang MLLM 29 18 0 12 Mar 2024
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information Chien-Yao Wang I-Hau Yeh Hongpeng Liao 41 1,031 0 21 Feb 2024
MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer Changyao Tian Xizhou Zhu Yuwen Xiong Weiyun Wang Zhe Chen ... Tong Lu Jie Zhou Hongsheng Li Yu Qiao Jifeng Dai AuLLM 83 40 0 18 Jan 2024
CaMML: Context-Aware Multimodal Learner for Large Models Yixin Chen Shuai Zhang Boran Han Tong He Bo Li VLM 14 4 0 06 Jan 2024
UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces Jiannan Wu Yi-Xin Jiang Bin Yan Huchuan Lu Zehuan Yuan Ping Luo VOS 19 17 0 25 Dec 2023
Video Recognition in Portrait Mode Mingfei Han Linjie Yang Xiaojie Jin Jiashi Feng Xiaojun Chang Heng Wang 23 3 0 21 Dec 2023
General Object Foundation Model for Images and Videos at Scale Junfeng Wu Yi-Xin Jiang Qihao Liu Zehuan Yuan Xiang Bai Song Bai VOS VLM 25 38 0 14 Dec 2023
4M: Massively Multimodal Masked Modeling David Mizrahi Roman Bachmann Ouguzhan Fatih Kar Teresa Yeo Mingfei Gao Afshin Dehghan Amir Zamir MLLM 25 62 0 11 Dec 2023
UPOCR: Towards Unified Pixel-Level OCR Interface Dezhi Peng Zhenhua Yang Jiaxin Zhang Chongyu Liu Yongxin Shi Kai Ding Fengjun Guo Lianwen Jin 21 10 0 05 Dec 2023
Continual Self-supervised Learning: Towards Universal Multi-modal Medical Data Representation Learning Yiwen Ye Yutong Xie Jianpeng Zhang Ziyang Chen Qi Wu Yong-quan Xia CLL 27 14 0 29 Nov 2023
Language Semantic Graph Guided Data-Efficient Learning Wenxuan Ma Shuang Li Lincan Cai Jingxuan Kang 19 4 0 15 Nov 2023
ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in Video-Language Models .Ilker Kesen Andrea Pedrotti Mustafa Dogan Michele Cafagna Emre Can Acikgoz ... Iacer Calixto Anette Frank Albert Gatt Aykut Erdem Erkut Erdem 22 15 0 13 Nov 2023
OmniVec: Learning robust representations with cross modal sharing Siddharth Srivastava Gaurav Sharma SSL 16 64 0 07 Nov 2023
OpenForest: A data catalogue for machine learning in forest monitoring Arthur Ouaknine T. Kattenborn Etienne Laliberté David Rolnick 36 5 0 01 Nov 2023
Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive Survey and Evaluation Yinjie Lei Zixuan Wang Feng Chen Guoqing Wang Peng Wang Yang Yang 27 8 0 24 Oct 2023
AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion Yitong Jiang Zhaoyang Zhang Tianfan Xue Jinwei Gu DiffM 32 43 0 16 Oct 2023
Lightweight In-Context Tuning for Multimodal Unified Models Yixin Chen Shuai Zhang Boran Han Jiaya Jia 11 2 0 08 Oct 2023
VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models Ziyi Yin Muchao Ye Tianrong Zhang Tianyu Du Jinguo Zhu Han Liu Jinghui Chen Ting Wang Fenglong Ma AAML VLM CoGe 25 36 0 07 Oct 2023
InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists Yulu Gan Sungwoo Park Alexander Schubert Anthony Philippakis Ahmed Alaa VLM 17 21 0 30 Sep 2023
Toloka Visual Question Answering Benchmark Mert Pilanci Nikita Pavlichenko Sergey Koshelev Daniil Likhobaba Alisa Smirnova 14 2 0 28 Sep 2023
Zero-Shot and Few-Shot Video Question Answering with Multi-Modal Prompts Bipin Rajendran Bashir M. Al-Hashimi MLLM VLM 26 2 0 27 Sep 2023
InstructDiffusion: A Generalist Modeling Interface for Vision Tasks Zigang Geng Binxin Yang Tiankai Hang Chen Li Shuyang Gu ... Jianmin Bao Zheng-Wei Zhang Han Hu Dongdong Chen Baining Guo DiffM VLM 30 92 0 07 Sep 2023
Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond Jinze Bai Shuai Bai Shusheng Yang Shijie Wang Sinan Tan Peng Wang Junyang Lin Chang Zhou Jingren Zhou MLLM VLM ObjD 29 780 0 24 Aug 2023
UniTR: A Unified and Efficient Multi-Modal Transformer for Bird's-Eye-View Representation Haiyang Wang Hao Tang Shaoshuai Shi Aoxue Li Zhenguo Li Bernt Schiele Liwei Wang ViT 25 55 0 15 Aug 2023