2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

1 January 2025

Papers citing "2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining"

2 / 2 papers shown

Title
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks W. Zhang Mengna Wang Gangao Liu Xu Huixin Yiwei Jiang ... Hang Zhang Xin Li Weiming Lu Peng Li Y. Zhuang LM&Ro LRM 65 2 0 27 Mar 2025
Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions Wan Ju Kang Eunki Kim Na Min An Sangryul Kim Haemin Choi Ki Hoon Kwak James Thorne 44 0 0 17 Mar 2025