Factor Graph Attention

Factor Graph Attention

11 April 2019

Papers citing "Factor Graph Attention"

14 / 14 papers shown

Title
STA-V2A: Video-to-Audio Generation with Semantic and Temporal Alignment Yong Ren Chenxing Li Manjie Xu Wei Liang Yu Gu Rilin Chen Dong Yu VGen DiffM 43 6 0 13 Sep 2024
Uncovering Hidden Connections: Iterative Search and Reasoning for Video-grounded Dialog Haoyu Zhang Meng Liu Yaowei Wang Da Cao Weili Guan Liqiang Nie 28 0 0 11 Oct 2023
Unified Multimodal Model with Unlikelihood Training for Visual Dialog Zihao Wang Junli Wang Changjun Jiang MLLM 21 10 0 23 Nov 2022
Enabling Harmonious Human-Machine Interaction with Visual-Context Augmented Dialogue System: A Review Hao Wang Bin Guo Y. Zeng Yasan Ding Chen Qiu Ying Zhang Li Yao Zhiwen Yu 25 2 0 02 Jul 2022
The Dialog Must Go On: Improving Visual Dialog via Generative Self-Training Gi-Cheon Kang Sungdong Kim Jin-Hwa Kim Donghyun Kwak Byoung-Tak Zhang 16 10 0 25 May 2022
UTC: A Unified Transformer with Inter-Task Contrastive Learning for Visual Dialog Cheng Chen Yudong Zhu Zhenshan Tan Qingrong Cheng Xin Jiang Qun Liu X. Gu 23 39 0 01 May 2022
Classification-Regression for Chart Comprehension Matan Levy Rami Ben-Ari Dani Lischinski 23 15 0 29 Nov 2021
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic Yoad Tewel Yoav Shalev Idan Schwartz Lior Wolf VLM 30 192 0 29 Nov 2021
Visual Navigation with Spatial Attention Bar Mayo Tamir Hazan A. Tal EgoV 8 72 0 20 Apr 2021
Learning Reasoning Paths over Semantic Graphs for Video-grounded Dialogues Hung Le Nancy F. Chen S. Hoi 26 14 0 01 Mar 2021
Removing Bias in Multi-modal Classifiers: Regularization by Maximizing Functional Entropies Itai Gat Idan Schwartz A. Schwing Tamir Hazan 51 89 0 21 Oct 2020
DAM: Deliberation, Abandon and Memory Networks for Generating Detailed and Non-repetitive Responses in Visual Dialogue X. Jiang J. Yu Yajing Sun Zengchang Qin Zihao Zhu Yue Hu Qi Wu MLLM 35 19 0 07 Jul 2020
A Simple Baseline for Audio-Visual Scene-Aware Dialog Idan Schwartz A. Schwing Tamir Hazan 16 69 0 11 Apr 2019
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 144 1,464 0 06 Jun 2016