Multi-modality Latent Interaction Network for Visual Question Answering

IEEE International Conference on Computer Vision (ICCV), 2019

10 August 2019

Papers citing "Multi-modality Latent Interaction Network for Visual Question Answering"

44 / 44 papers shown

Hadamard product in deep learning: Introduction, Advances and ChallengesIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

385

17 Apr 2025

A Pattern to Align Them All: Integrating Different Modalities to Define Multi-Modal Entities

179

17 Oct 2024

Listen Then See: Video Alignment with Speaker Attention

Aviral Agrawal

Carlos Mateo Samudio Lezcano

Iqui Balam Heredia-Marin

P. Sethi

204

21 Apr 2024

Object Attribute Matters in Visual Question Answering

Zheng Lin

292

20 Dec 2023

Visual Question Generation in Bengali

271

12 Oct 2023

VQA with Cascade of Self- and Co-Attention Blocks

Aakansha Mishra

Ashish Anand

Prithwijit Guha

155

28 Feb 2023

SceneGATE: Scene-Graph based co-Attention networks for TExt visual question answering

449

16 Dec 2022

Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets

Anurag Roy

David Johnson Ekka

Saptarshi Ghosh

Abir Das

276

13 Oct 2022

Visuo-Tactile Transformers for ManipulationConference on Robot Learning (CoRL), 2022

755

30 Sep 2022

Interactive Question Answering Systems: Literature ReviewACM Computing Surveys (ACM CSUR), 2022

Giovanni Maria Biancofiore

488

04 Sep 2022

Towards Lightweight Transformer via Group-wise Transformation for Vision-and-Language TasksIEEE Transactions on Image Processing (IEEE TIP), 2022

Liujuan Cao

Yongjian Wu

Feiyue Huang

Rongrong Ji

ViT

175

16 Apr 2022

Question-Driven Graph Fusion Network For Visual Question AnsweringIEEE International Conference on Multimedia and Expo (ICME), 2022

254

03 Apr 2022

General Greedy De-bias LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

542

20 Dec 2021

On the Significance of Question Encoder Sequence Model in the Out-of-Distribution Performance in Visual Question Answering

K. Gouthaman

Anurag Mittal

CML

248

28 Aug 2021

Fast Convergence of DETR with Spatially Modulated Co-AttentionIEEE International Conference on Computer Vision (ICCV), 2021

Minghang Zheng

321

381

05 Aug 2021

Greedy Gradient Ensemble for Robust Visual Question AnsweringIEEE International Conference on Computer Vision (ICCV), 2021

314

27 Jul 2021

Oriented Object Detection with Transformer

Errui Ding

241

06 Jun 2021

Scalable Transformers for Neural Machine Translation

245

04 Jun 2021

Container: Context Aggregation NetworkNeural Information Processing Systems (NeurIPS), 2021

335

02 Jun 2021

Dual-stream Network for Visual RecognitionNeural Information Processing Systems (NeurIPS), 2021

Errui Ding

351

31 May 2021

What is Multimodality?

Letitia Parcalabescu

Nils Trost

Anette Frank

301

10 Mar 2021

Latent Variable Models for Visual Question Answering

Zixu Wang

Yishu Miao

Lucia Specia

310

16 Jan 2021

End-to-End Object Detection with Adaptive Clustering TransformerBritish Machine Vision Conference (BMVC), 2020

Minghang Zheng

445

223

18 Nov 2020

Learning to Respond with Your Favorite Stickers: A Framework of Unifying Multi-Modality and User Preference in Multi-Turn Dialog

Rui Yan

275

05 Nov 2020

Multimodal Research in Vision and Language: A Review of Current and Emerging Trends

Roger Zimmermann

338

19 Oct 2020

Answer-checking in Context: A Multi-modal FullyAttention Network for Visual Question AnsweringInternational Conference on Pattern Recognition (ICPR), 2020

182

17 Oct 2020

Multi-Pass Transformer for Machine Translation

157

23 Sep 2020

A Simple Yet Effective Method for Video Temporal Grounding with Cross-Modality Attention

Ying Shan

23 Sep 2020

Visual Question Answering on Image SetsEuropean Conference on Computer Vision (ECCV), 2020

372

27 Aug 2020

Linguistically-aware Attention for Reducing the Semantic-Gap in Vision-Language Tasks

277

18 Aug 2020

HAMLET: A Hierarchical Multimodal Attention-based Human Activity Recognition Algorithm

Md. Mofijul Islam

Tariq Iqbal

186

03 Aug 2020

Contrastive Visual-Linguistic Pretraining

194

26 Jul 2020

Reducing Language Biases in Visual Question Answering with Visually-Grounded Question EncoderEuropean Conference on Computer Vision (ECCV), 2020

K. Gouthaman

Anurag Mittal

408

13 Jul 2020

Extreme Low-Light Imaging with Multi-granulation Cooperative Networks

149

16 May 2020

Character Matters: Video Story Understanding with Character-Aware Relations

250

09 May 2020

A Novel Attention-based Aggregation Function to Combine Vision and LanguageInternational Conference on Pattern Recognition (ICPR), 2020

Lorenzo Baraldi

135

27 Apr 2020

Normalized and Geometry-Aware Self-Attention Network for Image CaptioningComputer Vision and Pattern Recognition (CVPR), 2020

Jing Liu

348

220

19 Mar 2020

Learning to Respond with Stickers: A Framework of Unifying Multi-Modality in Multi-Turn DialogThe Web Conference (WWW), 2020

Dongyan Zhao

Rui Yan

278

10 Mar 2020

Unshuffling Data for Improved GeneralizationIEEE International Conference on Computer Vision (ICCV), 2020

290

27 Feb 2020

CQ-VQA: Visual Question Answering on Categorized QuestionsIEEE International Joint Conference on Neural Network (IJCNN), 2020

Aakansha Mishra

A. Anand

Prithwijit Guha

302

17 Feb 2020

Multi-Layer Content Interaction Through Quaternion Product For Visual Question AnsweringIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020

293

03 Jan 2020

Fastened CROWN: Tightened Neural Network Robustness CertificatesAAAI Conference on Artificial Intelligence (AAAI), 2019

392

02 Dec 2019

LXMERT: Learning Cross-Modality Encoder Representations from TransformersConference on Empirical Methods in Natural Language Processing (EMNLP), 2019

Hao Hao Tan

Joey Tianyi Zhou

VLM MLLM

900

2,847

20 Aug 2019

Bilinear Graph Networks for Visual Question AnsweringIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2019

258

23 Jul 2019