v1v2 (latest)

Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks

International Conference on Learning Representations (ICLR), 2022

17 June 2022

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks"

50 / 352 papers shown

eP-ALM: Efficient Perceptual Augmentation of Language ModelsIEEE International Conference on Computer Vision (ICCV), 2023

420

20 Mar 2023

Generative Semantic SegmentationComputer Vision and Pattern Recognition (CVPR), 2023

Li Zhang

212

20 Mar 2023

CHAMPAGNE: Learning Real-world Conversation from Large-Scale Web VideosIEEE International Conference on Computer Vision (ICCV), 2023

Yejin Choi

200

17 Mar 2023

ViM: Vision Middleware for Unified Downstream TransferringIEEE International Conference on Computer Vision (ICCV), 2023

Jingren Zhou

233

13 Mar 2023

Universal Instance Perception as Object Discovery and RetrievalComputer Vision and Pattern Recognition (CVPR), 2023

Ping Luo

Huchuan Lu

374

235

12 Mar 2023

UniHCP: A Unified Model for Human-Centric PerceptionsComputer Vision and Pattern Recognition (CVPR), 2023

Wanli Ouyang

536

06 Mar 2023

Prismer: A Vision-Language Model with Multi-Task Experts

Linxi Fan

325

04 Mar 2023

FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion TasksComputer Vision and Pattern Recognition (CVPR), 2023

Li Zhang

179

04 Mar 2023

Prophet: Prompting Large Language Models with Complementary Answer Heuristics for Knowledge-based Visual Question AnsweringIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

450

03 Mar 2023

StraIT: Non-autoregressive Generation with Stratified Image Transformer

Yuanzhen Li

221

01 Mar 2023

Language-Driven Representation Learning for Robotics

Dorsa Sadigh

280

189

24 Feb 2023

Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?Conference on Empirical Methods in Natural Language Processing (EMNLP), 2023

614

150

23 Feb 2023

Backdoor Attacks to Pre-trained Unified Foundation Models

Kai Zhang

Lichao Sun

215

18 Feb 2023

MINOTAUR: Multi-task Video Grounding From Multimodal Queries

220

16 Feb 2023

PolyFormer: Referring Image Segmentation as Sequential Polygon GenerationComputer Vision and Pattern Recognition (CVPR), 2023

307

181

14 Feb 2023

Grounding Large Language Models in Interactive Environments with Online Reinforcement LearningInternational Conference on Machine Learning (ICML), 2023

391

238

06 Feb 2023

See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning

Chuang Gan

275

12 Jan 2023

All in Tokens: Unifying Output Space of Visual Tasks via Soft TokenIEEE International Conference on Computer Vision (ICCV), 2023

330

05 Jan 2023

Do DALL-E and Flamingo Understand Each Other?IEEE International Conference on Computer Vision (ICCV), 2022

Jindong Gu

226

23 Dec 2022

Generalized Decoding for Pixel, Image, and LanguageComputer Vision and Pattern Recognition (CVPR), 2022

Jianwei Yang

...

Lu Yuan

287

326

21 Dec 2022

MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction TuningAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

369

132

21 Dec 2022

Universal Object Detection with Large Vision ModelInternational Journal of Computer Vision (IJCV), 2022

Feng-Huei Lin

Wenze Hu

Yaowei Wang

Yonghong Tian

281

19 Dec 2022

Transferring General Multimodal Pretrained Models to Text RecognitionAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

Junyang Lin

Xuancheng Ren

Yichang Zhang

Gao Liu

Peng Wang

An Yang

Chang Zhou

131

19 Dec 2022

Egocentric Video Task TranslationComputer Vision and Pattern Recognition (CVPR), 2022

265

13 Dec 2022

OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models

Jinze Bai

Rui Men

Xuancheng Ren

...

Jianxin Ma

Jingren Zhou

Chang Zhou

147

08 Dec 2022

Hierarchical multimodal transformers for Multi-Page DocVQAPattern Recognition (Pattern Recogn.), 2022

Rubèn Pérez Tito

Dimosthenis Karatzas

Ernest Valveny

262

07 Dec 2022

Unifying Vision, Text, and Layout for Universal Document ProcessingComputer Vision and Pattern Recognition (CVPR), 2022

Yang Liu

346

152

05 Dec 2022

Images Speak in Images: A Generalist Painter for In-Context Visual LearningComputer Vision and Pattern Recognition (CVPR), 2022

Chunhua Shen

336

335

05 Dec 2022

Localization vs. Semantics: Visual Representations in Unimodal and Multimodal ModelsConference of the European Chapter of the Association for Computational Linguistics (EACL), 2022

Cihang Xie

178

01 Dec 2022

Perceive, Ground, Reason, and Act: A Benchmark for General-purpose Visual Representation

Jiangyong Huang

Baoxiong Jia

Xiaojian Ma

258

28 Nov 2022

Seeing What You Miss: Vision-Language Pre-training with Semantic Completion LearningComputer Vision and Pattern Recognition (CVPR), 2022

Wenzhe Zhao

Hongfa Wang

Yujiu Yang

Wei Liu

VLM

260

24 Nov 2022

Unifying Vision-Language Representation Space with Single-tower TransformerAAAI Conference on Artificial Intelligence (AAAI), 2022

Nojun Kwak

249

21 Nov 2022

Visual Programming: Compositional visual reasoning without trainingComputer Vision and Pattern Recognition (CVPR), 2022

Tanmay Gupta

Aniruddha Kembhavi

ReLM VLM LRM

439

571

18 Nov 2022

Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language TasksComputer Vision and Pattern Recognition (CVPR), 2022

...

Yu Qiao

169

17 Nov 2022

I Can't Believe There's No Images! Learning Visual Tasks Using only Language SupervisionIEEE International Conference on Computer Vision (ICCV), 2022

335

17 Nov 2022

PromptCap: Prompt-Guided Task-Aware Image Captioning

Weijia Shi

412

127

15 Nov 2022

Z-LaVI: Zero-Shot Language Solver Fueled by Visual ImaginationConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Wenlin Yao

216

21 Oct 2022

A Survey of Computer Vision Technologies In Urban and Controlled-environment AgricultureACM Computing Surveys (ACM CSUR), 2022

Jiayun Luo

Boyang Albert Li

Cyril Leung

374

20 Oct 2022

Retrospectives on the Embodied AI Workshop

...

Jiajun Wu

369

13 Oct 2022

A Generalist Framework for Panoptic Segmentation of Images and VideosIEEE International Conference on Computer Vision (ICCV), 2022

David J. Fleet

442

131

12 Oct 2022

VIMA: General Robot Manipulation with Multimodal Prompts

Li Fei-Fei

Linxi Fan

390

475

06 Oct 2022

PaLI: A Jointly-Scaled Multilingual Language-Image ModelInternational Conference on Learning Representations (ICLR), 2022

...

718

908

14 Sep 2022

A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond

Kang Zhang

In So Kweon

SSL

234

30 Jul 2022

CLiMB: A Continual Learning Benchmark for Vision-and-Language TasksNeural Information Processing Systems (NeurIPS), 2022

384

18 Jun 2022

MineDojo: Building Open-Ended Embodied Agents with Internet-Scale KnowledgeNeural Information Processing Systems (NeurIPS), 2022

Linxi Fan

De-An Huang

512

496

17 Jun 2022

A Unified Sequence Interface for Vision TasksNeural Information Processing Systems (NeurIPS), 2022

David J. Fleet

208

171

15 Jun 2022

GLIPv2: Unifying Localization and Vision-Language Understanding

Lu Yuan

296

354

12 Jun 2022

Transformers in Time-series Analysis: A TutorialCircuits, systems, and signal processing (CSSP), 2022

318

247

28 Apr 2022

A Survey on Unsupervised Anomaly Detection Algorithms for Industrial ImagesIEEE Access (IEEE Access), 2022

472

24 Apr 2022

PolyViT: Co-training Vision Transformers on Images, Videos and Audio

Valerii Likhosherstov

195

25 Nov 2021