TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

30 October 2024

Chuhan Li

Papers citing "TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models"

2 / 2 papers shown

Title
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization Yunxin Li Xinyu Chen Zitao Li Zhenyu Liu L. Wang Wenhan Luo Baotian Hu Min Zhang OffRL LRM 54 0 0 25 May 2025
UVE: Are MLLMs Unified Evaluators for AI-Generated Videos? Yuanxin Liu Rui Zhu Shuhuai Ren Jiacong Wang Haoyuan Guo Xu Sun Lu Jiang 285 1 0 13 Mar 2025