HEAR: Hearing Enhanced Audio Response for Video-grounded Dialogue

15 December 2023

Papers citing "HEAR: Hearing Enhanced Audio Response for Video-grounded Dialogue"

7 / 7 papers shown

Title
Gramian Multimodal Representation Learning and Alignment Giordano Cicchetti Eleonora Grassucci Luigi Sigillo Danilo Comminiello 74 0 0 16 Dec 2024
TPC: Test-time Procrustes Calibration for Diffusion-based Human Image Animation Sunjae Yoon Gwanhyeong Koo Younghwan Lee Chang-Dong Yoo VGen 49 3 0 31 Oct 2024
BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation Hee Suk Yoon Eunseop Yoon Joshua Tian Jin Tee Kang Zhang Yu-Jung Heo Du-Seong Chang Chang D. Yoo 16 3 0 12 Aug 2024
TLCR: Token-Level Continuous Reward for Fine-grained Reinforcement Learning from Human Feedback Eunseop Yoon Hee Suk Yoon Soohwan Eom Gunsoo Han D. W. Nam DaeJin Jo Kyoung-Woon On M. Hasegawa-Johnson Sungwoong Kim C. Yoo ALM 20 15 0 23 Jul 2024
FRAG: Frequency Adapting Group for Diffusion Video Editing Sunjae Yoon Gwanhyeong Koo Geonwoo Kim Chang D. Yoo DiffM 23 5 0 10 Jun 2024
M2K-VDG: Model-Adaptive Multimodal Knowledge Anchor Enhanced Video-grounded Dialogue Generation Hongcheng Liu Pingjie Wang Yu Wang Yanfeng Wang 20 1 0 19 Feb 2024
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,435 0 26 Sep 2016