v1v2v3v4 (latest)

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face

Neural Information Processing Systems (NeurIPS), 2023

30 March 2023

Yongliang Shen

Kaitao Song

Xu Tan

Dongsheng Li

Weiming Lu

Yueting Zhuang

MLLM

ArXiv (abs)PDF HTML HuggingFace (12 upvotes)

Papers citing "HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face"

50 / 753 papers shown

QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search

506

04 Feb 2025

Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language ModelsKnowledge Discovery and Data Mining (KDD), 2023

451

149

28 Jan 2025

Parameter-Efficient Fine-Tuning for Foundation Models

517

23 Jan 2025

FaceOracle: Chat with a Face Image Oracle

Wassim Kabbani

Kiran Raja

Raghavendra Ramachandra

C. Busch

CVBM

182

13 Jan 2025

Visual Large Language Models for Generalized and Specialized Applications

461

06 Jan 2025

AI Agent for Education: von Neumann Multi-Agent System Framework

423

03 Jan 2025

Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web

606

03 Jan 2025

Towards Sustainable Large Language Model ServingACM SIGEnergy Energy Informatics Review (SEIR), 2024

484

31 Dec 2024

Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, EditingNeural Information Processing Systems (NeurIPS), 2024

475

31 Dec 2024

GAIS: A Novel Approach to Instance Selection with Graph Attention Networks

282

26 Dec 2024

AV-EmoDialog: Chat with Audio-Visual Users Leveraging Emotional Cues

152

23 Dec 2024

SilVar: Speech Driven Multimodal Model for Reasoning Visual Question Answering and Object Localization

265

21 Dec 2024

CAD-Assistant: Tool-Augmented VLLMs as Generic CAD Task Solvers

Dimitrios Mallis

Ahmet Serdar Karadeniz

Sebastian Cavada

Danila Rukhovich

Niki Maria Foteinopoulou

K. Cherenkova

Anis Kacem

Djamila Aouada

603

18 Dec 2024

RL-LLM-DT: An Automatic Decision Tree Generation Method Based on RL Evaluation and LLM Enhancement

260

16 Dec 2024

Olympus: A Universal Task Router for Computer Vision TasksComputer Vision and Pattern Recognition (CVPR), 2024

1.2K

12 Dec 2024

ChatDyn: Language-Driven Multi-Actor Dynamics Generation in Street Scenes

291

11 Dec 2024

Simulating Human-like Daily Activities with Desire-driven AutonomyInternational Conference on Learning Representations (ICLR), 2024

471

09 Dec 2024

Language Model as Visual ExplainerNeural Information Processing Systems (NeurIPS), 2024

Xingyi Yang

Xinchao Wang

VLM

208

08 Dec 2024

LossAgent: Towards Any Optimization Objectives for Image Processing with LLM Agents

597

05 Dec 2024

Hierarchical Prompt Decision Transformer: Improving Few-Shot Policy Generalization with Global and Adaptive GuidanceThe Web Conference (WWW), 2024

362

01 Dec 2024

ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection

277

29 Nov 2024

Action Engine: Automatic Workflow Generation in FaaSFuture generations computer systems (FGCS), 2024

Akiharu Esashi

Pawissanutt Lertpongrujikorn

Shinji Kato

M. Salehi

328

29 Nov 2024

Automatic Prompt Generation and Grounding Object Detection for Zero-Shot Image Anomaly DetectionAsia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 2024

233

28 Nov 2024

FactCheXcker: Mitigating Measurement Hallucinations in Chest X-ray Report Generation ModelsComputer Vision and Pattern Recognition (CVPR), 2024

652

27 Nov 2024

Autonomous Imagination: Closed-Loop Decomposition of Visual-to-Textual Conversion in Visual Reasoning for Multimodal Large Language Models

511

27 Nov 2024

CATP-LLM: Empowering Large Language Models for Cost-Aware Tool Planning

1.2K

25 Nov 2024

BALROG: Benchmarking Agentic LLM and VLM Reasoning On GamesInternational Conference on Learning Representations (ICLR), 2024

...

578

20 Nov 2024

Generalist Virtual Agents: A Survey on Autonomous Agents Across Digital Platforms

311

17 Nov 2024

Visual-Linguistic Agent: Towards Collaborative Contextual Object Reasoning

136

15 Nov 2024

Spider: Any-to-Many Multimodal LLM

528

14 Nov 2024

Large Language Models for Constructing and Optimizing Machine Learning Workflows: A Survey

Haoran Fan

Shiyou Qian

LM&MA AI4CE

413

11 Nov 2024

CaPo: Cooperative Plan Optimization for Efficient Embodied Multi-Agent CooperationInternational Conference on Learning Representations (ICLR), 2024

378

07 Nov 2024

Understanding Generative AI in Robot Logic Parametrization

156

06 Nov 2024

Building Multi-Agent Copilot towards Autonomous Agricultural Data Management and AnalysisBigData Congress [Services Society] (BSS), 2024

251

31 Oct 2024

Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective

Guoqi Li

448

29 Oct 2024

Improving In-Context Learning with Small Language Model Ensembles

179

29 Oct 2024

What Factors Affect Multi-Modal In-Context Learning? An In-Depth ExplorationNeural Information Processing Systems (NeurIPS), 2024

L. Qin

Qiguang Chen

Hao Fei

Zhi Chen

Min Li

Wanxiang Che

207

27 Oct 2024

Language Agents Meet Causality -- Bridging LLMs and Causal World Models

262

25 Oct 2024

Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks

Graziano A. Manduzio

Federico A. Galatolo

M. G. Cimino

Enzo Pasquale Scilingo

Lorenzo Cominelli

LRM

182

24 Oct 2024

An Intelligent Agentic System for Complex Image Restoration ProblemsInternational Conference on Learning Representations (ICLR), 2024

486

23 Oct 2024

Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance

Zhe Chen

...

402

21 Oct 2024

NetSafe: Exploring the Topological Safety of Multi-agent Networks

Kun Wang

281

21 Oct 2024

Who is Undercover? Guiding LLMs to Explore Multi-Perspective Team Tactic in the Game

206

20 Oct 2024

RescueADI: Adaptive Disaster Interpretation in Remote Sensing Images with Autonomous AgentsIEEE Transactions on Geoscience and Remote Sensing (TGRS), 2024

Zhuoran Liu

Danpei Zhao

Bo Yuan

316

17 Oct 2024

Facilitating Multi-turn Function Calling for LLMs via Compositional Instruction TuningInternational Conference on Learning Representations (ICLR), 2024

Mingyang Chen

Wentao Zhang

Weipeng Chen

336

16 Oct 2024

LLM-SmartAudit: Advanced Smart Contract Vulnerability Detection

Jing Sun

267

12 Oct 2024

DAWN: Designing Distributed Agents in a Worldwide NetworkIEEE Access (IEEE Access), 2024

410

11 Oct 2024

Agents Thinking Fast and Slow: A Talker-Reasoner Architecture

Konstantina Christakopoulou

Shibl Mourad

Maja Matarić

LLMAG

218

10 Oct 2024

Agent S: An Open Agentic Framework that Uses Computers Like a HumanInternational Conference on Learning Representations (ICLR), 2024

Xin Eric Wang

236

10 Oct 2024

From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven InteractionsInternational Conference on Learning Representations (ICLR), 2024

Shuaiqiang Wang

Jun Xu

Ji-Rong Wen

351

10 Oct 2024