From Recognition to Cognition: Visual Commonsense Reasoning

27 November 2018

Yejin Choi

Papers citing "From Recognition to Cognition: Visual Commonsense Reasoning"

50 / 118 papers shown

Title
Borrowing Human Senses: Comment-Aware Self-Training for Social Media Multimodal Classification Chunpu Xu Jing Li VLM 13 5 0 27 Mar 2023
Knowledge-Based Counterfactual Queries for Visual Question Answering Theodoti Stoikou Maria Lymperaiou Giorgos Stamou AAML 13 1 0 05 Mar 2023
The Contribution of Knowledge in Visiolinguistic Learning: A Survey on Tasks and Challenges Maria Lymperaiou Giorgos Stamou VLM 24 4 0 04 Mar 2023
Learning the Effects of Physical Actions in a Multi-modal Environment Gautier Dagan Frank Keller A. Lascarides LM&Ro 17 3 0 27 Jan 2023
Towards a Unified Model for Generating Answers and Explanations in Visual Question Answering Chenxi Whitehouse Tillman Weyde Pranava Madhyastha LRM 30 3 0 25 Jan 2023
Effective End-to-End Vision Language Pretraining with Semantic Visual Loss Xiaofeng Yang Fayao Liu Guosheng Lin VLM 16 7 0 18 Jan 2023
Reasoning with Language Model Prompting: A Survey Shuofei Qiao Yixin Ou Ningyu Zhang Xiang Chen Yunzhi Yao Shumin Deng Chuanqi Tan Fei Huang Huajun Chen ReLM ELM LRM 44 307 0 19 Dec 2022
A Probabilistic-Logic based Commonsense Representation Framework for Modelling Inferences with Multiple Antecedents and Varying Likelihoods Shantanu Jaiswal Liu Yan Dongkyu Choi Kenneth Kwok 14 0 0 30 Nov 2022
Perceive, Ground, Reason, and Act: A Benchmark for General-purpose Visual Representation Jiangyong Huang William Zhu Baoxiong Jia Zan Wang Xiaojian Ma Qing Li Siyuan Huang 24 5 0 28 Nov 2022
Towards Reasoning-Aware Explainable VQA Rakesh Vaideeswaran Feng Gao Abhinav Mathur Govind Thattai LRM 22 3 0 09 Nov 2022
Mind's Eye: Grounded Language Model Reasoning through Simulation Ruibo Liu Jason W. Wei S. Gu Te-Yen Wu Soroush Vosoughi Claire Cui Denny Zhou Andrew M. Dai ReLM LRM 109 78 0 11 Oct 2022
Transformer-based Localization from Embodied Dialog with Large-scale Pre-training Meera Hahn James M. Rehg LM&Ro 32 4 0 10 Oct 2022
VIPHY: Probing "Visible" Physical Commonsense Knowledge Shikhar Singh Ehsan Qasemi Muhao Chen 29 6 0 15 Sep 2022
Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning Tao He Lianli Gao Jingkuan Song Yuan-Fang Li VLM 15 49 0 17 Aug 2022
Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations Qian Yang Yunxin Li Baotian Hu Lin Ma Yuxin Ding Min Zhang 15 10 0 23 Jul 2022
Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks Jiasen Lu Christopher Clark Rowan Zellers Roozbeh Mottaghi Aniruddha Kembhavi ObjD VLM MLLM 36 391 0 17 Jun 2022
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling Linjie Li Zhe Gan Kevin Qinghong Lin Chung-Ching Lin Zicheng Liu Ce Liu Lijuan Wang MLLM VLM 18 81 0 14 Jun 2022
Effective Abstract Reasoning with Dual-Contrast Network Tao Zhuo Mohan S. Kankanhalli 16 39 0 27 May 2022
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization Shruti Palaskar Akshita Bhagia Yonatan Bisk Florian Metze A. Black Ana Marasović 14 4 0 24 May 2022
Visual Spatial Reasoning Fangyu Liu Guy Edward Toh Emerson Nigel Collier ReLM 21 155 0 30 Apr 2022
Tragedy Plus Time: Capturing Unintended Human Activities from Weakly-labeled Videos Arnav Chakravarthy Zhiyuan Fang Yezhou Yang 21 2 0 28 Apr 2022
Attention Mechanism based Cognition-level Scene Understanding Xuejiao Tang Tai Le Quy LRM 23 0 0 17 Apr 2022
Long Movie Clip Classification with State-Space Video Models Md. Mohaiminul Islam Gedas Bertasius VLM 34 100 0 04 Apr 2022
To Find Waldo You Need Contextual Cues: Debiasing Who's Waldo Yiran Luo Pratyay Banerjee Tejas Gokhale Yezhou Yang Chitta Baral 14 4 0 30 Mar 2022
Factual Consistency of Multilingual Pretrained Language Models Constanza Fierro Anders Søgaard HILM 9 15 0 22 Mar 2022
WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models Shan Yuan Shuai Zhao Jiahong Leng Zhao Xue Hanyu Zhao Peiyu Liu Zheng Gong Wayne Xin Zhao Junyi Li Tang Jie VLM 19 5 0 22 Mar 2022
Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding Haojun Jiang Yuanze Lin Dongchen Han Shiji Song Gao Huang ObjD 33 49 0 16 Mar 2022
E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning Jiangjie Chen Rui Xu Ziquan Fu Wei Shi Zhongqiao Li Xinbo Zhang Changzhi Sun Lei Li Yanghua Xiao Hao Zhou ELM 21 35 0 16 Mar 2022
A Survey of Vision-Language Pre-Trained Models Yifan Du Zikang Liu Junyi Li Wayne Xin Zhao VLM 13 177 0 18 Feb 2022
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 82 208 0 18 Feb 2022
NEWSKVQA: Knowledge-Aware News Video Question Answering Pranay Gupta Manish Gupta 14 7 0 08 Feb 2022
Commonsense Knowledge Reasoning and Generation with Pre-trained Language Models: A Survey Prajjwal Bhargava Vincent Ng ReLM LRM 29 61 0 28 Jan 2022
CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks Zhecan Wang Noel Codella Yen-Chun Chen Luowei Zhou Jianwei Yang Xiyang Dai Bin Xiao Haoxuan You Shih-Fu Chang Lu Yuan CLIP VLM 22 39 0 15 Jan 2022
CLIP-Event: Connecting Text and Images with Event Structures Manling Li Ruochen Xu Shuohang Wang Luowei Zhou Xudong Lin Chenguang Zhu Michael Zeng Heng Ji Shih-Fu Chang VLM CLIP 10 123 0 13 Jan 2022
MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound Rowan Zellers Jiasen Lu Ximing Lu Youngjae Yu Yanpeng Zhao Mohammadreza Salehi Aditya Kusupati Jack Hessel Ali Farhadi Yejin Choi 14 206 0 07 Jan 2022
Zero-shot Commonsense Question Answering with Cloze Translation and Consistency Optimization Zi-Yi Dou Nanyun Peng ELM 13 26 0 01 Jan 2022
LAFITE: Towards Language-Free Training for Text-to-Image Generation Yufan Zhou Ruiyi Zhang Changyou Chen Chunyuan Li Chris Tensmeyer Tong Yu Jiuxiang Gu Jinhui Xu Tong Sun VLM 19 161 0 27 Nov 2021
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling Tsu-jui Fu Linjie Li Zhe Gan Kevin Qinghong Lin W. Wang Lijuan Wang Zicheng Liu VLM 34 215 0 24 Nov 2021
EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching Yaya Shi Xu Yang Haiyang Xu Chunfen Yuan Bing Li Weiming Hu Zhengjun Zha 31 33 0 17 Nov 2021
Dense Contrastive Visual-Linguistic Pretraining Lei Shi Kai Shuang Shijie Geng Peng Gao Zuohui Fu Gerard de Melo Yunpeng Chen Sen Su VLM SSL 52 10 0 24 Sep 2021
Retrieve, Caption, Generate: Visual Grounding for Enhancing Commonsense in Text Generation Models Steven Y. Feng Kevin Lu Zhuofu Tao Malihe Alikhani Teruko Mitamura Eduard H. Hovy Varun Gangal LRM 25 13 0 08 Sep 2021
Vision Guided Generative Pre-trained Language Models for Multimodal Abstractive Summarization Tiezheng Yu Wenliang Dai Zihan Liu Pascale Fung 24 71 0 06 Sep 2021
Indoor Semantic Scene Understanding using Multi-modality Fusion Muraleekrishna Gopinathan Giang Truong Jumana Abu-Khalaf 8 0 0 17 Aug 2021
PhotoChat: A Human-Human Dialogue Dataset with Photo Sharing Behavior for Joint Image-Text Modeling Xiaoxue Zang Lijuan Liu Maria Wang Yang Song Hao Zhang Jindong Chen VLM 10 55 0 06 Jul 2021
Knowledge-Grounded Self-Rationalization via Extractive and Natural Language Explanations Bodhisattwa Prasad Majumder Oana-Maria Camburu Thomas Lukasiewicz Julian McAuley 10 35 0 25 Jun 2021
Attend What You Need: Motion-Appearance Synergistic Networks for Video Question Answering Ahjeong Seo Gi-Cheon Kang J. Park Byoung-Tak Zhang 13 52 0 19 Jun 2021
Explainability of deep vision-based autonomous driving systems: Review and challenges Éloi Zablocki H. Ben-younes P. Pérez Matthieu Cord XAI 32 168 0 13 Jan 2021
KM-BART: Knowledge Enhanced Multimodal BART for Visual Commonsense Generation Yiran Xing Z. Shi Zhao Meng Gerhard Lakemeyer Yunpu Ma Roger Wattenhofer VLM 57 40 0 02 Jan 2021
Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs Emanuele Bugliarello Ryan Cotterell Naoaki Okazaki Desmond Elliott 22 119 0 30 Nov 2020
Removing Bias in Multi-modal Classifiers: Regularization by Maximizing Functional Entropies Itai Gat Idan Schwartz A. Schwing Tamir Hazan 51 88 0 21 Oct 2020