Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

5 December 2017

David Silver

Papers citing "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm"

50 / 839 papers shown

Do Zombies Understand? A Choose-Your-Own-Adventure Exploration of Machine Cognition

Ariel Goldstein

Gabriel Stanovsky

205

01 Mar 2024

Understanding Iterative Combinatorial Auction Designs via Multi-Agent Reinforcement Learning

G. dÉon

N. Newman

Kevin Leyton-Brown

176

29 Feb 2024

Offline Fictitious Self-Play for Competitive Games

223

29 Feb 2024

Impact of Computation in Integral Reinforcement Learning for Continuous-Time Control

Wenhan Cao

Wei Pan

214

27 Feb 2024

Rigor with Machine Learning from Field Theory to the Poincaré Conjecture

140

20 Feb 2024

Puzzle Solving using Reasoning of Large Language Models: A Survey

Panagiotis Giadikiaroglou

Maria Lymperaiou

Giorgos Filandrianos

Giorgos Stamou

ELM ReLM LRM

378

17 Feb 2024

Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation

Huizhuo Yuan

Zixiang Chen

Kaixuan Ji

Quanquan Gu

233

15 Feb 2024

GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

Alex Havrilla

Sharath Raparthy

Christoforus Nalmpantis

280

13 Feb 2024

Large Language Models as Agents in Two-Player Games

Yang Liu

Hang Li

LLMAG

183

12 Feb 2024

Scaling Intelligent Agents in Combat Simulations for Wargaming

Scotty Black

Christian J. Darken

08 Feb 2024

Scaling Artificial Intelligence for Digital Wargaming in Support of Decision-Making

Scotty Black

Christian J. Darken

122

08 Feb 2024

Grandmaster-Level Chess Without Search

231

07 Feb 2024

A Multi-step Loss Function for Robust Learning of the Dynamics in Model-based Reinforcement Learning

164

05 Feb 2024

Deep autoregressive density nets vs neural ensembles for model-based offline reinforcement learning

214

05 Feb 2024

The RL/LLM Taxonomy Tree: Reviewing Synergies Between Reinforcement Learning and Large Language Models

252

02 Feb 2024

SymbolicAI: A framework for logic-based approaches combining generative models and solvers

Marius-Constantin Dinu

Claudiu Leoveanu-Condrei

Markus Holzleitner

Werner Zellinger

Sepp Hochreiter

320

01 Feb 2024

Layered and Staged Monte Carlo Tree Search for SMT Strategy Synthesis

100

30 Jan 2024

CNN architecture extraction on edge GPU

156

24 Jan 2024

AlphaMapleSAT: An MCTS-based Cube-and-Conquer SAT Solver for Hard Combinatorial Problems

141

24 Jan 2024

Deep Learning Based Simulators for the Phosphorus Removal Process Control in Wastewater Treatment via Deep Reinforcement Learning AlgorithmsEngineering applications of artificial intelligence (EAAI), 2024

Esmaeel Mohammadi

Mikkel Stokholm-Bjerregaard

131

23 Jan 2024

Retrieval-Guided Reinforcement Learning for Boolean Circuit MinimizationInternational Conference on Learning Representations (ICLR), 2024

195

22 Jan 2024

VQC-Based Reinforcement Learning with Data Re-uploading: Performance and TrainabilityQuantum Machine Intelligence (QMI), 2024

Rodrigo Coelho

André Sequeira

Luis Paulo Santos

224

21 Jan 2024

Learning a Prior for Monte Carlo Search by Replaying Solutions to Combinatorial Problems

Tristan Cazenave

19 Jan 2024

Generalized Nested Rollout Policy Adaptation with Limited Repetitions

Tristan Cazenave

105

18 Jan 2024

Self-Play Fine-Tuning Converts Weak Language Models to Strong Language ModelsInternational Conference on Machine Learning (ICML), 2024

Quanquan Gu

563

448

02 Jan 2024

Towards Cognitive AI Systems: a Survey and Prospective on Neuro-Symbolic AI

296

02 Jan 2024

HiER: Highlight Experience Replay for Boosting Off-Policy Reinforcement Learning AgentsIEEE Access (IEEE Access), 2023

Dániel Horváth

Jesús Bujalance Martín

219

14 Dec 2023

Assessing SATNet's Ability to Solve the Symbol Grounding ProblemNeural Information Processing Systems (NeurIPS), 2023

187

13 Dec 2023

BarraCUDA: GPUs do Leak DNN Weights

292

12 Dec 2023

DiSK: A Diffusion Model for Structured Knowledge

181

08 Dec 2023

FoMo Rewards: Can we cast foundation models as reward functions?

244

06 Dec 2023

Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters

293

04 Dec 2023

Extreme Event Prediction with Multi-agent Reinforcement Learning-based Parametrization of Atmospheric and Oceanic Turbulence

235

01 Dec 2023

Minimax Exploiter: A Data Efficient Approach for Competitive Self-PlayAdaptive Agents and Multi-Agent Systems (AAMAS), 2023

202

28 Nov 2023

From Images to Connections: Can DQN with GNNs learn the Strategic Game of Hex?

203

22 Nov 2023

ADAPTER-RL: Adaptation of Any Agent using Reinforcement Learning

139

20 Nov 2023

Multi-Task Reinforcement Learning with Mixture of Orthogonal Experts

Ahmed Hendawy

Jan Peters

Carlo DÉramo

MoE

234

19 Nov 2023

Runtime Verification of Learning Properties for Reinforcement Learning Algorithms

T. Mannucci

Julio de Oliveira Filho

OffRL

111

16 Nov 2023

A Simple Solution for Offline Imitation from Observations and Examples with Possibly Incomplete TrajectoriesNeural Information Processing Systems (NeurIPS), 2023

283

02 Nov 2023

Learning to Play Chess from Textbooks (LEAP): a Corpus for Evaluating Chess Moves based on Sentiment Analysis

Haifa Alrdahi

Riza Batista-Navarro

195

31 Oct 2023

Model-Based Reparameterization Policy Gradient Methods: Theory and Practical AlgorithmsNeural Information Processing Systems (NeurIPS), 2023

278

30 Oct 2023

Metric Flows with Neural Networks

James Halverson

Fabian Ruehle

194

30 Oct 2023

Explaining the Decisions of Deep Policy Networks for Robotic ManipulationsIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2021

Seongun Kim

Jaesik Choi

162

30 Oct 2023

Optimal Robotic Assembly Sequence Planning: A Sequential Decision-Making Approach

Kartik Nagpal

Negar Mehr

310

26 Oct 2023

ACES: Generating Diverse Programming Puzzles with with Autotelic Generative Models

582

15 Oct 2023

Alpha Elimination: Using Deep Reinforcement Learning to Reduce Fill-In during Sparse Matrix Decomposition

Arpan Dasgupta

Kiran Ravish

142

15 Oct 2023

LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision ScenariosNeural Information Processing Systems (NeurIPS), 2023

382

12 Oct 2023

Measuring Feature Sparsity in Language Models

Mingyang Deng

Lucas Tao

Joe Benton

237

11 Oct 2023

f

-Policy Gradients: A General Framework for Goal Conditioned RL using

f

-DivergencesNeural Information Processing Systems (NeurIPS), 2023

263

10 Oct 2023

BridgeHand2Vec Bridge Hand RepresentationEuropean Conference on Artificial Intelligence (ECAI), 2023

128

10 Oct 2023