FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback

12 October 2024

Papers citing "FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback"

2 / 2 papers shown

Title
A Survey on Large Language Model based Human-Agent Systems Henry Peng Zou Wei-Chieh Huang Yaozu Wu Yankai Chen Chunyu Miao ... Y. Li Yuwei Cao Dongyuan Li Renhe Jiang Philip S. Yu LLMAG LM&Ro LM&MA 79 0 0 01 May 2025
CodeIF-Bench: Evaluating Instruction-Following Capabilities of Large Language Models in Interactive Code Generation Peiding Wang L. Zhang Fang Liu Lin Shi Minxiao Li Bo Shen An Fu ELM LRM 48 0 0 05 Mar 2025