Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2507.04952
Cited By

ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation

v1v2 (latest)

ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation

7 July 2025

ArXiv (abs)PDF HTML HuggingFace (8 upvotes)

Papers citing "ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation"

6 / 6 papers shown

EWE: An Agentic Framework for Extreme Weather Analysis

EWE: An Agentic Framework for Extreme Weather Analysis

164

1

0

26 Nov 2025

SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models

SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models

...

Zhaoxiang Zhang

351

1

0

07 Nov 2025

VinciCoder: Unifying Multimodal Code Generation via Coarse-to-fine Visual Reinforcement Learning

VinciCoder: Unifying Multimodal Code Generation via Coarse-to-fine Visual Reinforcement Learning

140

2

0

01 Nov 2025

ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding

ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding

103

3

0

13 Oct 2025

InteractScience: Programmatic and Visually-Grounded Evaluation of Interactive Scientific Demonstration Code Generation

InteractScience: Programmatic and Visually-Grounded Evaluation of Interactive Scientific Demonstration Code Generation

153

1

0

10 Oct 2025

AIM-Bench: Evaluating Decision-making Biases of Agentic LLM as Inventory Manager

AIM-Bench: Evaluating Decision-making Biases of Agentic LLM as Inventory Manager

65

0

0

15 Aug 2025