AllSpark: A Multimodal Spatio-Temporal General Intelligence Model with Ten Modalities via Language as a Reference Framework

8 January 2025

Papers citing "AllSpark: A Multimodal Spatio-Temporal General Intelligence Model with Ten Modalities via Language as a Reference Framework"

6 / 6 papers shown

Title
OneLLM: One Framework to Align All Modalities with Language Jiaming Han Kaixiong Gong Yiyuan Zhang Jiaqi Wang Kaipeng Zhang D. Lin Yu Qiao Peng Gao Xiangyu Yue MLLM 67 67 0 10 Jan 2025
Extending global-local view alignment for self-supervised learning with remote sensing imagery Xinye Wanyan Sachith Seneviratne Shuchang Shen M. Kirley 48 11 0 12 Mar 2023
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 359 2,713 0 28 Jan 2022
ERNIE-Doc: A Retrospective Long-Document Modeling Transformer Siyu Ding Junyuan Shang Shuohuan Wang Yu Sun Hao Tian Hua-Hong Wu Haifeng Wang 45 46 0 31 Dec 2020
DenseFuse: A Fusion Approach to Infrared and Visible Images Hui Li Xiaojun Wu 71 980 0 23 Apr 2018
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation C. Qi Hao Su Kaichun Mo Leonidas J. Guibas 3DH 3DPC 3DV PINN 175 12,351 0 02 Dec 2016