Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video Recognition

Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video Recognition

18 December 2023

Yonghong Tian

Papers citing "Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video Recognition"

8 / 8 papers shown

Title
SSTFormer: Bridging Spiking Neural Network and Memory Support Transformer for Frame-Event based Recognition Xiao Wang Zong-Yao Wu Yao Rong Lin Zhu Bowei Jiang Jin Tang Yonghong Tian ViT 38 100 0 08 Aug 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 235 1,899 0 30 Jan 2023
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 252 5,353 0 11 Nov 2021
The Right to Talk: An Audio-Visual Transformer Approach Thanh-Dat Truong C. Duong T. D. Vu H. Pham Bhiksha Raj Ngan Le Khoa Luu 16 32 0 06 Aug 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 267 1,486 0 09 Feb 2021
Video Transformer Network Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann ViT 186 356 0 01 Feb 2021
Trear: Transformer-based RGB-D Egocentric Action Recognition Xiangyu Li Yonghong Hou Pichao Wang Zhimin Gao Mingliang Xu Wanqing Li ViT 158 72 0 05 Jan 2021
Temporal Binary Representation for Event-Based Action Recognition Simone Undri Innocenti Federico Becattini F. Pernici A. Bimbo 19 52 0 18 Oct 2020