Modularized Textual Grounding for Counterfactual Resilience

7 April 2019

Papers citing "Modularized Textual Grounding for Counterfactual Resilience"

9 / 9 papers shown

Title
Tragedy Plus Time: Capturing Unintended Human Activities from Weakly-labeled Videos Arnav Chakravarthy Zhiyuan Fang Yezhou Yang 21 2 0 28 Apr 2022
Injecting Semantic Concepts into End-to-End Image Captioning Zhiyuan Fang Jianfeng Wang Xiaowei Hu Lin Liang Zhe Gan Lijuan Wang Yezhou Yang Zicheng Liu ViT VLM 19 86 0 09 Dec 2021
A Review on Explainability in Multimodal Deep Neural Nets Gargi Joshi Rahee Walambe K. Kotecha 21 137 0 17 May 2021
Compressing Visual-linguistic Model via Knowledge Distillation Zhiyuan Fang Jianfeng Wang Xiaowei Hu Lijuan Wang Yezhou Yang Zicheng Liu VLM 31 96 0 05 Apr 2021
Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images Haolin Liu Anran Lin Xiaoguang Han Lei Yang Yizhou Yu Shuguang Cui 21 39 0 14 Mar 2021
Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning Zhiyuan Fang Tejas Gokhale Pratyay Banerjee Chitta Baral Yezhou Yang 10 60 0 11 Mar 2020
Weakly Supervised Attention Learning for Textual Phrases Grounding Zhiyuan Fang Shu Kong Tianshu Yu Yezhou Yang 17 12 0 01 May 2018
Range Loss for Deep Face Recognition with Long-tail Xiao Zhang Zhiyuan Fang Yandong Wen Zhifeng Li Yu Qiao CVBM 232 446 0 28 Nov 2016
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 149 1,465 0 06 Jun 2016