End-to-end Semantic-centric Video-based Multimodal Affective Computing

14 August 2024

Papers citing "End-to-end Semantic-centric Video-based Multimodal Affective Computing"

6 / 6 papers shown

Title
Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction Cam-Van Thi Nguyen Anh-Tuan Mai The-Son Le Hai-Dang Kieu Duc-Trong Le 21 20 0 08 Nov 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 255 7,337 0 11 Nov 2021
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding Hu Xu Gargi Ghosh Po-Yao (Bernie) Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Florian Metze Luke Zettlemoyer Christoph Feichtenhofer CLIP VLM 239 554 0 28 Sep 2021
MMGCN: Multimodal Fusion via Deep Graph Convolution Network for Emotion Recognition in Conversation Jingwen Hu Yuchen Liu Jinming Zhao Qin Jin 20 196 0 14 Jul 2021
Efficient Estimation of Word Representations in Vector Space Tomáš Mikolov Kai Chen G. Corrado J. Dean 3DV 228 29,632 0 16 Jan 2013