v1v2 (latest)

Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks

International Conference on Learning Representations (ICLR), 2022

17 June 2022

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks"

50 / 352 papers shown

Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling

Chengxu Zhuang

Evelina Fedorenko

Jacob Andreas

188

21 Mar 2024

What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models

211

20 Mar 2024

SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models

Xingyuan Dai

Yisheng Lv

216

20 Mar 2024

A Versatile Framework for Multi-scene Person Re-identification

327

17 Mar 2024

3D-VLA: A 3D Vision-Language-Action Generative World ModelInternational Conference on Machine Learning (ICML), 2024

Chuang Gan

272

219

14 Mar 2024

GiT: Towards Generalist Vision Transformer through Universal Language InterfaceEuropean Conference on Computer Vision (ECCV), 2024

Muhammad Ferjad Naeem

Jiaming Song

Bernt Schiele

Liwei Wang

VLM

280

14 Mar 2024

Explore In-Context Segmentation via Latent Diffusion ModelsAAAI Conference on Artificial Intelligence (AAAI), 2024

Chaoyang Wang

Xiangtai Li

Henghui Ding

Jiangning Zhang

383

14 Mar 2024

Masked AutoDecoder is Effective Multi-Task Vision GeneralistComputer Vision and Pattern Recognition (CVPR), 2024

217

12 Mar 2024

Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal ModelsNeural Information Processing Systems (NeurIPS), 2024

294

12 Mar 2024

Toward Generalist Anomaly Detection via In-context Residual Learning with Few-shot Sample PromptsComputer Vision and Pattern Recognition (CVPR), 2024

Jiawen Zhu

Guansong Pang

VLM

418

11 Mar 2024

Enhancing Vision-Language Pre-training with Rich Supervisions

412

05 Mar 2024

NiNformer: A Network in Network Transformer with Token Mixing Generated Gating Function

Abdullah Nazhat Abdullah

Tarkan Aydin

424

04 Mar 2024

Non-autoregressive Sequence-to-Sequence Vision-Language Models

335

04 Mar 2024

GROUNDHOG: Grounding Large Language Models to Holistic Segmentation

376

26 Feb 2024

Where Do We Go from Here? Multi-scale Allocentric Relational Inference from Natural Spatial Descriptions

158

26 Feb 2024

PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs

206

13 Feb 2024

Real-World Robot Applications of Foundation Models: A Review

286

08 Feb 2024

Data-efficient Large Vision Models through Sequential Autoregression

248

07 Feb 2024

Large Language Models for Time Series: A Survey

527

128

02 Feb 2024

Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study

189

31 Jan 2024

Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge

Haibi Wang

Weifeng Ge

LRM

443

19 Jan 2024

OMG-Seg: Is One Model Good Enough For All Segmentation?

Xiangtai Li

Henghui Ding

311

106

18 Jan 2024

A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting

Wouter Van Gansbeke

Bert De Brabandere

DiffM

347

18 Jan 2024

AntEval: Evaluation of Social Interaction Competencies in LLM-Driven Agents

Yuanzhi Liang

Linchao Zhu

Yi Yang

LLMAG

220

12 Jan 2024

CaMML: Context-Aware Multimodal Learner for Large Models

277

06 Jan 2024

Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers

318

03 Jan 2024

Masked Modeling for Self-supervised Representation Learning on Vision and Beyond

Siyuan Li

Luyuan Zhang

Zedong Wang

Di Wu

Lirong Wu

...

Jun Xia

Cheng Tan

Yang Liu

Baigui Sun

Stan Z. Li

SSL

300

31 Dec 2023

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

282

274

28 Dec 2023

UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces

Huchuan Lu

Ping Luo

273

25 Dec 2023

Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model

Ser-Nam Lim

386

19 Dec 2023

SMILE: Multimodal Dataset for Understanding Laughter in Video with Language Models

414

15 Dec 2023

VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation

Sijie Zhao

Ying Shan

191

14 Dec 2023

General Object Foundation Model for Images and Videos at ScaleComputer Vision and Pattern Recognition (CVPR), 2023

343

14 Dec 2023

Tokenize Anything via PromptingEuropean Conference on Computer Vision (ECCV), 2023

257

14 Dec 2023

Hallucination Augmented Contrastive Learning for Multimodal Large Language ModelComputer Vision and Pattern Recognition (CVPR), 2023

Ji Zhang

Fei Huang

Shikun Zhang

VLM

321

116

12 Dec 2023

4M: Massively Multimodal Masked Modeling

270

107

11 Dec 2023

Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator

461

11 Dec 2023

Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language ModelsComputer Vision and Pattern Recognition (CVPR), 2023

Yushi Hu

Otilia Stretcu

Chun-Ta Lu

Krishnamurthy Viswanathan

348

05 Dec 2023

UPOCR: Towards Unified Pixel-Level OCR InterfaceInternational Conference on Machine Learning (ICML), 2023

Lianwen Jin

341

05 Dec 2023

Lenna: Language Enhanced Reasoning Detection Assistant

267

05 Dec 2023

GIVT: Generative Infinite-Vocabulary TransformersEuropean Conference on Computer Vision (ECCV), 2023

Michael Tschannen

Cian Eastwood

Fabian Mentzer

369

04 Dec 2023

PixelLM: Pixel Reasoning with Large Multimodal ModelComputer Vision and Pattern Recognition (CVPR), 2023

377

189

04 Dec 2023

Hulk: A Universal Knowledge Translator for Human-Centric TasksIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

...

714

04 Dec 2023

Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank ExpertsComputer Vision and Pattern Recognition (CVPR), 2023

Jialin Wu

Yaqing Wang

259

01 Dec 2023

Manipulating the Label Space for In-Context Classification

Jing Wang

214

01 Dec 2023

InstructSeq: Unifying Vision Tasks with Instruction-conditioned Multi-modal Sequence Generation

213

30 Nov 2023

X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning

Ran Xu

Silvio Savarese

Caiming Xiong

Juan Carlos Niebles

VLM MLLM

276

30 Nov 2023

Do text-free diffusion models learn discriminative visual representations?European Conference on Computer Vision (ECCV), 2023

411

29 Nov 2023

ShapeGPT: 3D Shape Generation with A Unified Multi-modal Language ModelIEEE transactions on multimedia (IEEE TMM), 2023

457

29 Nov 2023

E-ViLM: Efficient Video-Language Model via Masked Video Modeling with Semantic Vector-Quantized Tokenizer

392

28 Nov 2023