Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2508.03404
Cited By

Visual Document Understanding and Reasoning: A Multi-Agent Collaboration Framework with Agent-Wise Adaptive Test-Time Scaling

v1v2 (latest)

Visual Document Understanding and Reasoning: A Multi-Agent Collaboration Framework with Agent-Wise Adaptive Test-Time Scaling

5 August 2025

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)Github (7★)

Papers citing "Visual Document Understanding and Reasoning: A Multi-Agent Collaboration Framework with Agent-Wise Adaptive Test-Time Scaling"

13 / 13 papers shown

Diffusion-Based Image Editing: An Unforeseen Adversary to Robust Invisible Watermarks

Diffusion-Based Image Editing: An Unforeseen Adversary to Robust Invisible Watermarks

433

0

0

05 Nov 2025

A Survey of Data Agents: Emerging Paradigm or Overstated Hype?

A Survey of Data Agents: Emerging Paradigm or Overstated Hype?

...

189

2

0

27 Oct 2025

Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding

Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding

272

1

0

17 Oct 2025

DeRainMamba: A Frequency-Aware State Space Model with Detail Enhancement for Image Deraining

DeRainMamba: A Frequency-Aware State Space Model with Detail Enhancement for Image DerainingIEEE Signal Processing Letters (IEEE SPL), 2025

228

0

0

08 Oct 2025

Diffusion-Based Image Editing for Breaking Robust Watermarks

Diffusion-Based Image Editing for Breaking Robust Watermarks

462

1

0

07 Oct 2025

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

313

7

0

02 Oct 2025

Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow

Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow

...

Jiangning Zhang

243

3

0

26 Sep 2025

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

316

11

0

25 Sep 2025

SSCM: A Spatial-Semantic Consistent Model for Multi-Contrast MRI Super-Resolution

SSCM: A Spatial-Semantic Consistent Model for Multi-Contrast MRI Super-Resolution

220

1

0

23 Sep 2025

MVCL-DAF++: Enhancing Multimodal Intent Recognition via Prototype-Aware Contrastive Alignment and Coarse-to-Fine Dynamic Attention Fusion

MVCL-DAF++: Enhancing Multimodal Intent Recognition via Prototype-Aware Contrastive Alignment and Coarse-to-Fine Dynamic Attention Fusion

183

0

0

22 Sep 2025

Robust Concept Erasure in Diffusion Models: A Theoretical Perspective on Security and Robustness

Robust Concept Erasure in Diffusion Models: A Theoretical Perspective on Security and Robustness

322

0

0

15 Sep 2025

LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation

LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation

195

12

0

22 Jun 2025

Intentional Gesture: Deliver Your Intentions with Gestures for Speech

Intentional Gesture: Deliver Your Intentions with Gestures for Speech

350

7

0

21 May 2025

Page 1 of 1