Efficient Multi-Task Scene Analysis with RGB-D Transformers

8 June 2023

Papers citing "Efficient Multi-Task Scene Analysis with RGB-D Transformers"

8 / 8 papers shown

Title
LiDAR-Camera Fusion for Video Panoptic Segmentation without Video Training Fardin Ayar Ehsan Javanmardi Manabu Tsukada Mahdi Javanmardi Mohammad Rahmati VOS 32 0 0 31 Dec 2024
Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities Kaiwen Cai Zhekai Duan Gaowen Liu Charles Fleming Chris Xiaoxuan Lu VLM 28 3 0 07 Mar 2024
Joint Depth Prediction and Semantic Segmentation with Multi-View SAM Mykhailo Shvets Dongxu Zhao Marc Niethammer Roni Sengupta Alexander C. Berg MDE 22 8 0 31 Oct 2023
Fusing Hand and Body Skeletons for Human Action Recognition in Assembly Dustin Aganian Mona Köhler Benedict Stephan M. Eisenbach H. Groß 11 2 0 18 Jul 2023
Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments Daniel Seichter Söhnke Benedikt Fischedick Mona Köhler H. Groß 37 35 0 10 Jul 2022
Omnivore: A Single Model for Many Visual Modalities Rohit Girdhar Mannat Singh Nikhil Ravi L. V. D. van der Maaten Armand Joulin Ishan Misra 217 225 0 20 Jan 2022
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 263 3,622 0 24 Feb 2021
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 284 39,190 0 01 Sep 2014