Smart Vision-Language Reasoners

5 July 2024

Papers citing "Smart Vision-Language Reasoners"

8 / 8 papers shown

Title
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking Jinyang Wu Mingkuan Feng Shuai Zhang Ruihan Jin Feihu Che Zengqi Wen J. Tao LRM 57 7 0 04 Feb 2025
TurtleBench: A Visual Programming Benchmark in Turtle Geometry Sina Rismanchian Yasaman Razeghi Sameer Singh Shayan Doroudi 44 1 0 31 Oct 2024
VisLingInstruct: Elevating Zero-Shot Learning in Multi-Modal Language Models with Autonomous Instruction Optimization Dongsheng Zhu Xunzhu Tang Weidong Han Jinghui Lu Yukun Zhao Guoliang Xing Junfeng Wang Dawei Yin VLM MLLM 46 7 0 12 Feb 2024
V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs Penghao Wu Saining Xie LRM 49 120 0 21 Dec 2023
Magnushammer: A Transformer-Based Approach to Premise Selection Maciej Mikuła Szymon Tworkowski Szymon Antoniak Bartosz Piotrowski Albert Qiaochu Jiang Jinyi Zhou Christian Szegedy Lukasz Kuciñski Piotr Milo's Yuhuai Wu 37 41 0 08 Mar 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,337 0 11 Nov 2021
Multilingual Evidence Retrieval and Fact Verification to Combat Global Disinformation: The Power of Polyglotism Denisa A.O. Roberts 22 3 0 16 Dec 2020