Universal Multimodal Representation for Language Understanding

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

9 January 2023

Rui Wang

ArXiv (abs)PDF HTML Github (171★)

Papers citing "Universal Multimodal Representation for Language Understanding"

10 / 10 papers shown

A Multimodal-Multitask Framework with Cross-modal Relation and Hierarchical Interactive Attention for Semantic ComprehensionInformation Fusion (Inf. Fusion), 2025

Mohammad Zia Ur Rehman

154

22 Aug 2025

ADAT: Time-Series-Aware Adaptive Transformer Architecture for Sign Language Translation

Nada Shahin

Leila Ismail

SLR

261

16 Apr 2025

A Survey: Spatiotemporal Consistency in Video Generation

445

25 Feb 2025

SAFE-MEME: Structured Reasoning Framework for Robust Hate Speech Detection in Memes

Palash Nandi

Shivam Sharma

Tanmoy Chakraborty

279

31 Dec 2024

Energy-Latency Manipulation of Multi-modal Large Language Models via Verbose Samples

Kuofeng Gao

Jindong Gu

Wei Liu

374

25 Apr 2024

GeReA: Question-Aware Prompt Captions for Knowledge-based Visual Question Answering

316

04 Feb 2024

Multi-modal Latent Space Learning for Chain-of-Thought Reasoning in Language ModelsAAAI Conference on Artificial Intelligence (AAAI), 2023

257

14 Dec 2023

Multimodal Prompt Learning for Product Title Generation with Extremely Limited LabelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

294

05 Jul 2023

VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information RetrievalACM Transactions on Knowledge Discovery from Data (TKDD), 2023

358

13 Feb 2023

Multimodal Chain-of-Thought Reasoning in Language Models

George Karypis

689

805

02 Feb 2023