Cycle-Consistency for Robust Visual Question Answering

15 February 2019

Devi Parikh

Papers citing "Cycle-Consistency for Robust Visual Question Answering"

50 / 129 papers shown

HARMONY: Hidden Activation Representations and Model Output-Aware Uncertainty Estimation for Vision-Language Models

164

25 Oct 2025

KBE-DME: Dynamic Multimodal Evaluation via Knowledge Enhanced Benchmark Evolution

Junzhe Zhang

Huixuan Zhang

Xiaojun Wan

24 Oct 2025

Explain Before You Answer: A Survey on Compositional Visual Reasoning

...

364

24 Aug 2025

Adversarial Attacks on VQA-NLE: Exposing and Alleviating Inconsistencies in Visual Question Answering Explanations

17 Aug 2025

Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance

...

468

12 Aug 2025

LARGO: Low-Rank Regulated Gradient Projection for Robust Parameter Efficient Fine-Tuning

222

14 Jun 2025

Cycle Consistency as Reward: Learning Image-Text Alignment without Human Preferences

425

02 Jun 2025

FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question AnsweringComputer Vision and Pattern Recognition (CVPR), 2025

Chengyue Huang

Brisa Maneechotesuwan

Shivang Chopra

Z. Kira

AAML

288

27 May 2025

DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal CyclesComputer Vision and Pattern Recognition (CVPR), 2025

Rui Zhao

Weijia Mao

Mike Zheng Shou

316

05 Mar 2025

LOVA3: Learning to Visual Question Answering, Asking and AssessmentNeural Information Processing Systems (NeurIPS), 2024

417

21 Feb 2025

Directional Gradient Projection for Robust Fine-Tuning of Foundation ModelsInternational Conference on Learning Representations (ICLR), 2025

Chengyue Huang

Junjiao Tian

Brisa Maneechotesuwan

Shivang Chopra

Z. Kira

520

21 Feb 2025

What makes a good metric? Evaluating automatic metrics for text-to-image consistency

Candace Ross

Melissa Hall

Adriana Romero Soriano

Adina Williams

405

18 Dec 2024

Consistency of Compositional Generalization across Multiple LevelsAAAI Conference on Artificial Intelligence (AAAI), 2024

253

18 Dec 2024

A Comprehensive Survey on Visual Question Answering Datasets and Algorithms

289

17 Nov 2024

Rethinking Weight Decay for Robust Fine-Tuning of Foundation ModelsNeural Information Processing Systems (NeurIPS), 2024

Junjiao Tian

Chengyue Huang

Z. Kira

190

03 Nov 2024

Replace-then-Perturb: Targeted Adversarial Attacks With Visual Reasoning for Vision-Language Models

256

01 Nov 2024

Improving Generalization in Visual Reasoning via Self-Ensemble

327

28 Oct 2024

Modality-Fair Preference Optimization for Trustworthy MLLM AlignmentInternational Joint Conference on Artificial Intelligence (IJCAI), 2024

322

20 Oct 2024

Efficient and Effective Universal Adversarial Attack against Vision-Language Pre-training Models

Yang Liu

274

15 Oct 2024

Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language BootstrappingInternational Conference on Learning Representations (ICLR), 2024

442

11 Oct 2024

Revisiting Multi-Modal LLM Evaluation

Christopher Kanan

167

09 Aug 2024

VideoQA in the Era of LLMs: An Empirical StudyInternational Journal of Computer Vision (IJCV), 2024

...

359

08 Aug 2024

Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion

273

15 Jul 2024

Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference

Kai Shen

Yueting Zhuang

215

06 Jul 2024

MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production

Jian Ma

Wenguan Wang

Yi Yang

Feng Zheng

300

04 Jul 2024

One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models

Hao Fang

Bin Chen

Hao Wu

441

08 Jun 2024

Consistency and Uncertainty: Identifying Unreliable Responses From Black-Box Vision-Language Models for Selective Visual Question Answering

Zaid Khan

Yun Fu

AAML

258

16 Apr 2024

MMCert: Provable Defense against Adversarial Attacks to Multi-modal Models

382

28 Mar 2024

Cycle-Consistency Learning for Captioning and Grounding

236

23 Dec 2023

BenchLMM: Benchmarking Cross-style Visual Capability of Large Multimodal ModelsEuropean Conference on Computer Vision (ECCV), 2023

331

05 Dec 2023

Exploring Question Decomposition for Zero-Shot VQANeural Information Processing Systems (NeurIPS), 2023

230

25 Oct 2023

Negative Object Presence Evaluation (NOPE) to Measure Object Hallucination in Vision-Language Models

253

09 Oct 2023

Towards Answering Health-related Questions from Medical Videos: Datasets and ApproachesInternational Conference on Language Resources and Evaluation (LREC), 2023

161

21 Sep 2023

Nougat: Neural Optical Understanding for Academic DocumentsInternational Conference on Learning Representations (ICLR), 2023

206

184

25 Aug 2023

Story Visualization by Online Text Augmentation with Context MemoryIEEE International Conference on Computer Vision (ICCV), 2023

266

15 Aug 2023

Robust Visual Question Answering: Datasets, Methods, and Future ChallengesIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Pinghui Wang

Jun Liu

334

21 Jul 2023

Generative Visual Question Answering

156

18 Jul 2023

Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA Tasks? A: Self-Train on Unlabeled Images!Computer Vision and Pattern Recognition (CVPR), 2023

258

06 Jun 2023

Cycle Consistency Driven Object DiscoveryInternational Conference on Learning Representations (ICLR), 2023

350

03 Jun 2023

Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense CaptionerACM Multimedia (ACM MM), 2023

206

19 May 2023

An Empirical Study on the Language Modal in Visual Question AnsweringInternational Joint Conference on Artificial Intelligence (IJCAI), 2023

261

17 May 2023

Iterative Adversarial Attack on Image-guided Story Ending GenerationIEEE transactions on multimedia (IEEE TMM), 2023

Youze Wang

Wenbo Hu

Richang Hong

247

16 May 2023

Adaptive loose optimization for robust question answering

Pinghui Wang

Jun Liu

419

06 May 2023

COLA: A Benchmark for Compositional Text-to-image RetrievalNeural Information Processing Systems (NeurIPS), 2023

464

05 May 2023

RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models

399

21 Apr 2023

Bi-directional Training for Composed Image Retrieval via Text Prompt LearningIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

311

29 Mar 2023

Exposing and Addressing Cross-Task Inconsistency in Unified Vision-Language Models

254

28 Mar 2023

Logical Implications for Visual Question Answering ConsistencyComputer Vision and Pattern Recognition (CVPR), 2023

Sergio Tascon-Morales

Pablo Márquez-Neila

Raphael Sznitman

252

16 Mar 2023

Why Did the Chicken Cross the Road? Rephrasing and Analyzing Ambiguous Questions in VQAAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

Elias Stengel-Eskin

Jimena Guallar-Blasco

Yi Zhou

Benjamin Van Durme

UQLM

165

14 Nov 2022

VLC-BERT: Visual Question Answering with Contextualized Commonsense KnowledgeIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

152

24 Oct 2022