v1v2 (latest)

Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks

International Conference on Learning Representations (ICLR), 2022

17 June 2022

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks"

50 / 352 papers shown

T2T-VICL: Unlocking the Boundaries of Cross-Task Visual In-Context Learning via Implicit Text-Driven VLMs

416

20 Nov 2025

Seg-VAR: Image Segmentation with Visual Autoregressive Modeling

128

16 Nov 2025

Visual Bridge: Universal Visual Perception Representations Generating

326

11 Nov 2025

ProM3E: Probabilistic Masked MultiModal Embedding Model for Ecology

144

04 Nov 2025

Multimedia-Aware Question Answering: A Review of Retrieval and Cross-Modal Reasoning Architectures

Rahul Raja

A. Vats

163

23 Oct 2025

UniMedVL: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis

...

330

17 Oct 2025

MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning

Mattia Segu

Marta Tintore Gazulla

Yongqin Xian

Luc Van Gool

Federico Tombari

16 Oct 2025

Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded PromptsChinese Conference on Pattern Recognition and Computer Vision (CPRCV), 2025

104

13 Oct 2025

Text-Scene: A Scene-to-Language Parsing Framework for 3D Scene Understanding

122

20 Sep 2025

AToken: A Unified Tokenizer for Vision

236

17 Sep 2025

Towards Understanding Visual Grounding in Visual Language Models

Georgios Pantazopoulos

Eda B. Özyiğit

ObjD

308

12 Sep 2025

MM-SeR: Multimodal Self-Refinement for Lightweight Image Captioning

208

29 Aug 2025

From Linearity to Non-Linearity: How Masked Autoencoders Capture Spatial Correlations

122

21 Aug 2025

Seeing Further on the Shoulders of Giants: Knowledge Inheritance for Vision Foundation Models

195

20 Aug 2025

ExpVG: Investigating the Design Space of Visual Grounding in Multimodal Large Language Model

118

11 Aug 2025

AURA: A Fine-Grained Benchmark and Decomposed Metric for Audio-Visual Reasoning

Siminfar Samakoush Galougah

181

10 Aug 2025

Phi-Ground Tech Report: Advancing Perception in GUI Grounding

...

220

31 Jul 2025

Rep-MTL: Unleashing the Power of Representation-level Task Saliency for Multi-Task Learning

Zedong Wang

Siyuan Li

Dan Xu

179

28 Jul 2025

CIMR: Contextualized Iterative Multimodal Reasoning for Robust Instruction Following in LVLMs

22 Jul 2025

Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey

151

21 Jul 2025

FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation

266

20 Jun 2025

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian SplattingComputer Vision and Pattern Recognition (CVPR), 2025

228

11 Jun 2025

Vision Generalist Model: A SurveyInternational Journal of Computer Vision (IJCV), 2025

...

293

11 Jun 2025

EgoM2P: Egocentric Multimodal Multitask Pretraining

407

09 Jun 2025

MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks

361

08 Jun 2025

RecGPT: A Foundation Model for Sequential Recommendation

351

06 Jun 2025

Is Extending Modality The Right Path Towards Omni-Modality?

270

02 Jun 2025

Taming LLMs by Scaling Learning Rates with Gradient Grouping

230

01 Jun 2025

BaryIR: Learning Multi-Source Unified Representation in Continuous Barycenter Space for Generalizable All-in-One Image Restoration

189

27 May 2025

LlamaSeg: Image Segmentation via Autoregressive Mask Generation

350

26 May 2025

FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities

382

26 May 2025

Visual Instruction Tuning with Chain of Region-of-Interest

270

11 May 2025

The Moon's Many Faces: A Single Unified Transformer for Multimodal Lunar Reconstruction

370

08 May 2025

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

650

01 May 2025

Learning Streaming Video Representation via Multitask Training

496

28 Apr 2025

Symbolic Representation for Any-to-Any Generative TasksComputer Vision and Pattern Recognition (CVPR), 2025

...

222

24 Apr 2025

SignX: Continuous Sign Recognition in Compact Pose-Rich Latent Space

379

22 Apr 2025

Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual PerceptionInternational Conference on Learning Representations (ICLR), 2025

485

15 Apr 2025

GeoUni: A Unified Model for Generating Geometry Diagrams, Problems and Problem Solutions

323

14 Apr 2025

Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization

338

11 Apr 2025

Towards Visual Text Grounding of Multimodal Large Language Model

431

07 Apr 2025

Continual Cross-Modal Generalization

275

01 Apr 2025

Efficient Token Compression for Vision Transformer with Spatial Information Preserved

359

30 Mar 2025

Aurelia: Test-time Reasoning Distillation in Audio-Visual LLMs

432

29 Mar 2025

Unified Multimodal Discrete Diffusion

328

26 Mar 2025

MMGen: Unified Multi-modal Image Generation and Understanding in One Go

325

26 Mar 2025

FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

311

25 Mar 2025

Crab: A Unified Audio-Visual Scene Understanding Model with Explicit CooperationComputer Vision and Pattern Recognition (CVPR), 2025

260

17 Mar 2025

HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model

329

17 Mar 2025

UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing

593

16 Mar 2025