Controlling Large Language Model Agents with Entropic Activation Steering

1 June 2024

Papers citing "Controlling Large Language Model Agents with Entropic Activation Steering"

8 / 8 papers shown

Title
Improving Instruction-Following in Language Models through Activation Steering Alessandro Stolfo Vidhisha Balachandran Safoora Yousefi Eric Horvitz Besmira Nushi LLMSV 52 14 0 15 Oct 2024
Programming Refusal with Conditional Activation Steering Bruce W. Lee Inkit Padhi K. Ramamurthy Erik Miehling Pierre L. Dognin Manish Nagireddy Amit Dhurandhar LLMSV 91 13 0 06 Sep 2024
Do LLM Agents Have Regret? A Case Study in Online Learning and Games Chanwoo Park Xiangyu Liu Asuman Ozdaglar Kaiqing Zhang 69 17 0 25 Mar 2024
Can large language models explore in-context? Akshay Krishnamurthy Keegan Harris Dylan J. Foster Cyril Zhang Aleksandrs Slivkins LM&Ro LLMAG LRM 118 22 0 22 Mar 2024
Emergent World Models and Latent Variable Estimation in Chess-Playing Language Models Adam Karvonen 27 19 0 21 Mar 2024
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL Yifei Zhou Andrea Zanette Jiayi Pan Sergey Levine Aviral Kumar 65 47 0 29 Feb 2024
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 233 2,477 0 06 Oct 2022
Efficient Estimation of Word Representations in Vector Space Tomáš Mikolov Kai Chen G. Corrado J. Dean 3DV 228 31,244 0 16 Jan 2013