TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters

30 October 2024

Papers citing "TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters"

2 / 2 papers shown

Title
Millions of States: Designing a Scalable MoE Architecture with RWKV-7 Meta-learner Liu Xiao Li Zhiyuan Lin Yueyu 26 0 0 11 Apr 2025
UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface Hao Tang Chenwei Xie Haiyang Wang Xiaoyi Bao Tingyu Weng Pandeng Li Yun Zheng Liwei Wang ObjD VLM 54 0 0 03 Mar 2025