DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems

DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems

15 July 2024

Wenhao Yu

Kaixin Ma

Zhuosheng Zhang

Dong Yu

Papers citing "DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems"

8 / 8 papers shown

Title
Cognitive Kernel: An Open-source Agent System towards Generalist Autopilots H. Zhang Xiaoman Pan Hongwei Wang Kaixin Ma W. Yu Dong Yu LLMAG 49 3 0 03 Jan 2025
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering John Yang Carlos E. Jimenez Alexander Wettig K. Lieret Shunyu Yao Karthik Narasimhan Ofir Press LLMAG 96 36 0 06 May 2024
A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law Z. Chen Jing Ma Xinlu Zhang Nan Hao An Yan Armineh Nourbakhsh Xianjun Yang Julian McAuley Linda R. Petzold William Yang Wang ELM AILaw 24 32 0 02 May 2024
A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts Kuang-Huei Lee Xinyun Chen Hiroki Furuta John F. Canny Ian S. Fischer RALM 44 29 0 15 Feb 2024
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement Zhiyong Wu Chengcheng Han Zichen Ding Zhenmin Weng Zhoumianze Liu Shunyu Yao Tao Yu Lingpeng Kong LLMAG LM&Ro 107 83 0 12 Feb 2024
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 208 2,413 0 06 Oct 2022
GLM-130B: An Open Bilingual Pre-trained Model Aohan Zeng Xiao Liu Zhengxiao Du Zihan Wang Hanyu Lai ... Jidong Zhai Wenguang Chen Peng-Zhen Zhang Yuxiao Dong Jie Tang BDL LRM 240 1,070 0 05 Oct 2022
ConditionalQA: A Complex Reading Comprehension Dataset with Conditional Answers Haitian Sun William W. Cohen Ruslan Salakhutdinov 59 33 0 13 Oct 2021