InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene Understanding

8 June 2023

Papers citing "InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene Understanding"

15 / 15 papers shown

Title
Multi-Task Label Discovery via Hierarchical Task Tokens for Partially Annotated Dense Predictions Jingdong Zhang Hanrong Ye Xin Li Wenping Wang Dan Xu 62 1 0 27 Nov 2024
Swiss Army Knife: Synergizing Biases in Knowledge from Vision Foundation Models for Multi-Task Learning Yuxiang Lu Shengcao Cao Yu-xiong Wang 43 1 0 18 Oct 2024
MTMamba++: Enhancing Multi-Task Dense Scene Understanding via Mamba-Based Decoders Baijiong Lin Weisen Jiang Pengguang Chen Shu Liu Ying-Cong Chen Mamba 25 1 0 27 Aug 2024
Elite360M: Efficient 360 Multi-task Learning via Bi-projection Fusion and Cross-task Collaboration Hao Ai Lin Wang 22 0 0 18 Aug 2024
DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated Data Hanrong Ye Dan Xu DiffM 42 4 0 22 Mar 2024
FedHCA $^2$ : Towards Hetero-Client Federated Multi-Task Learning Yuxiang Lu Suizhi Huang Yuwen Yang Shalayiding Sirejiding Yue Ding Hongtao Lu FedML 26 3 0 22 Nov 2023
Prompt Guided Transformer for Multi-Task Dense Prediction Yuxiang Lu Shalayiding Sirejiding Yue Ding Chunlin Wang Hongtao Lu 28 16 0 28 Jul 2023
Universal Few-shot Learning of Dense Prediction Tasks with Visual Token Matching Donggyun Kim Jinwoo Kim Seongwoong Cho Chong Luo Seunghoon Hong VLM 38 23 0 27 Mar 2023
MulT: An End-to-End Multitask Learning Transformer Deblina Bhattacharjee Tong Zhang Sabine Süsstrunk Mathieu Salzmann ViT 29 62 0 17 May 2022
Are Transformers More Robust Than CNNs? Yutong Bai Jieru Mei Alan Yuille Cihang Xie ViT AAML 167 256 0 10 Nov 2021
Pix2seq: A Language Modeling Framework for Object Detection Ting-Li Chen Saurabh Saxena Lala Li David J. Fleet Geoffrey E. Hinton MLLM ViT VLM 233 341 0 22 Sep 2021
Transformer in Transformer Kai Han An Xiao Enhua Wu Jianyuan Guo Chunjing Xu Yunhe Wang ViT 282 1,490 0 27 Feb 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 263 3,538 0 24 Feb 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,735 0 24 Feb 2021
Bottleneck Transformers for Visual Recognition A. Srinivas Tsung-Yi Lin Niki Parmar Jonathon Shlens Pieter Abbeel Ashish Vaswani SLR 265 955 0 27 Jan 2021