Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers

Transactions of the Association for Computational Linguistics (TACL), 2021

31 January 2021

Lisa Anne Hendricks

John F. J. Mellor

R. Schneider

Jean-Baptiste Alayrac

Aida Nematzadeh

ArXiv (abs)PDF HTML

Papers citing "Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers"

50 / 59 papers shown

Breast Cancer VLMs: Clinically Practical Vision-Language Train-Inference Models

112

29 Oct 2025

Learning Reconfigurable Representations for Multimodal Federated Learning with Missing Data

D. Nguyen

Trong Nghia Hoang

T. T. Huynh

Quoc Viet Hung Nguyen

Phi Le Nguyen

157

27 Oct 2025

InfMasking: Unleashing Synergistic Information by Contrastive Multimodal Interactions

327

28 Sep 2025

Manager: Aggregating Insights from Unimodal Experts in Two-Tower VLMs and MLLMs

335

13 Jun 2025

MCFNet: A Multimodal Collaborative Fusion Network for Fine-Grained Semantic Classification

267

29 May 2025

A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in MedicineInformation Fusion (Inf. Fusion), 2024

541

107

31 Dec 2024

ChitroJera: A Regionally Relevant Visual Question Answering Dataset for Bangla

Deeparghya Dutta Barua

Md Sakib Ul Rahman Sourove

Md Fahim

Fabiha Haider

Fariha Tanjim Shifat

Md Tasmim Rahman Adib

Anam Borhan Uddin

Md Farhan Ishmam

Md Farhad Alam

279

19 Oct 2024

Multi-modal Intermediate Feature Interaction AutoEncoder for Overall Survival Prediction of Esophageal Squamous Cell CancerIEEE International Symposium on Biomedical Imaging (ISBI), 2024

Yaqi Wang

109

23 Aug 2024

BrewCLIP: A Bifurcated Representation Learning Framework for Audio-Visual Retrieval

Zhenyu Lu

Lakshay Sethi

245

19 Aug 2024

Similarity Guided Multimodal Fusion Transformer for Semantic Location
Prediction in Social Media

275

09 May 2024

Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification

Wentao Zhu

355

08 Jan 2024

Efficient Selective Audio Masked Multimodal Bottleneck Transformer for Audio-Video Classification

Wentao Zhu

222

08 Jan 2024

Multimodal Graph Learning for Generative Tasks

Minji Yoon

Jing Yu Koh

Bryan Hooi

Ruslan Salakhutdinov

204

11 Oct 2023

MEGA: Multimodal Alignment Aggregation and Distillation For Cinematic Video SegmentationIEEE International Conference on Computer Vision (ICCV), 2023

298

22 Aug 2023

Read, Look or Listen? What's Needed for Solving a Multimodal Dataset

Netta Madvil

Yonatan Bitton

Roy Schwartz

282

06 Jul 2023

Weakly-Supervised Learning of Visual Relations in Multimodal PretrainingConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

345

23 May 2023

Brain encoding models based on multimodal transformers can transfer across language and visionNeural Information Processing Systems (NeurIPS), 2023

283

20 May 2023

Measuring Progress in Fine-grained Vision-and-Language UnderstandingAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

267

12 May 2023

Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts

Yantao Shen

349

11 May 2023

Making the Most of What You Have: Adapting Pre-trained Visual Language Models in the Low-data Regime

Chuhan Zhang

Antoine Miech

Jiajun Shen

Jean-Baptiste Alayrac

Pauline Luc

VLM VPVLM

269

03 May 2023

In-Context Learning Unlocked for Diffusion ModelsNeural Information Processing Systems (NeurIPS), 2023

Mingyuan Zhou

439

108

01 May 2023

Probing Conceptual Understanding of Large Visual-Language Models

Madeline Chantry Schiappa

410

07 Apr 2023

Self-Supervised Multimodal Learning: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Yongshuo Zong

Oisin Mac Aodha

Timothy M. Hospedales

SSL

450

109

31 Mar 2023

Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person RetrievalComputer Vision and Pattern Recognition (CVPR), 2023

Ding Jiang

Mang Ye

302

305

22 Mar 2023

Transformers in Speech Processing: A Survey

515

21 Mar 2023

A Simple Framework for Open-Vocabulary Segmentation and DetectionIEEE International Conference on Computer Vision (ICCV), 2023

Jianwei Yang

Lei Zhang

ObjD VLM

653

238

14 Mar 2023

Refined Vision-Language Modeling for Fine-grained Multi-modal Pre-training

227

09 Mar 2023

SwinCross: Cross-modal Swin Transformer for Head-and-Neck Tumor Segmentation in PET/CT ImagesMedical Physics (Lancaster) (Med. Phys.), 2023

241

08 Feb 2023

ClimaX: A foundation model for weather and climateInternational Conference on Machine Learning (ICML), 2023

Tung Nguyen

Johannes Brandstetter

713

415

24 Jan 2023

Generalized Decoding for Pixel, Image, and LanguageComputer Vision and Pattern Recognition (CVPR), 2022

Jianwei Yang

...

Lu Yuan

394

355

21 Dec 2022

Compound Tokens: Channel Fusion for Vision-Language Representation Learning

Maxwell Mbabilla Aladago

A. Piergiovanni

224

02 Dec 2022

Understanding Cross-modal Interactions in V&L Models that Generate Scene Descriptions

200

09 Nov 2022

Late Fusion with Triplet Margin Objective for Multimodal Ideology Prediction and AnalysisConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Changyuan Qiu

Winston Wu

Xinliang Frederick Zhang

Lu Wang

192

04 Nov 2022

Training Vision-Language Models with Less Bimodal SupervisionConference on Automated Knowledge Base Construction (AKBC), 2022

153

01 Nov 2022

Multimodal Transformer for Parallel Concatenated Variational Autoencoders

Stephen D. Liang

J. Mendel

ViT

309

28 Oct 2022

One does not fit all! On the Complementarity of Vision Encoders for Vision and Language TasksWorkshop on Representation Learning for NLP (RepL4NLP), 2022

236

12 Oct 2022

Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open QuestionsACM Computing Surveys (ACM CSUR), 2022

Paul Pu Liang

Amir Zadeh

Louis-Philippe Morency

363

218

07 Sep 2022

Efficient Vision-Language Pretraining with Visual Concepts and Hierarchical AlignmentBritish Machine Vision Conference (BMVC), 2022

394

29 Aug 2022

Contrastive Audio-Language Learning for MusicInternational Society for Music Information Retrieval Conference (ISMIR), 2022

409

25 Aug 2022

AutoTransition: Learning to Recommend Video Transition EffectsEuropean Conference on Computer Vision (ECCV), 2022

Yaojie Shen

Libo Zhang

Kai Xu

Xiaojie Jin

VGen

211

27 Jul 2022

Vision-and-Language Pretraining

322

05 Jul 2022

VL-CheckList: Evaluating Pre-trained Vision-Language Models with Objects, Attributes and Relations

391

121

01 Jul 2022

BridgeTower: Building Bridges Between Encoders in Vision-Language Representation LearningAAAI Conference on Artificial Intelligence (AAAI), 2022

Wanxiang Che

332

17 Jun 2022

Zero-Shot Video Question Answering via Frozen Bidirectional Language ModelsNeural Information Processing Systems (NeurIPS), 2022

569

285

16 Jun 2022

Evaluating Self-Supervised Learning for Molecular Graph EmbeddingsNeural Information Processing Systems (NeurIPS), 2022

Jian Tang

Qi Liu

406

16 Jun 2022

Multimodal Learning with Transformers: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

664

967

13 Jun 2022

Flamingo: a Visual Language Model for Few-Shot LearningNeural Information Processing Systems (NeurIPS), 2022

Jean-Baptiste Alayrac

...

869

5,564

29 Apr 2022

High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning

Shentong Mo

Louis-Philippe Morency

Ruslan Salakhutdinov

316

02 Mar 2022

Distilled Dual-Encoder Model for Vision-Language Understanding

248

16 Dec 2021

MLP Architectures for Vision-and-Language Modeling: An Empirical Study

Zicheng Liu

189

08 Dec 2021