CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay

CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay

7 February 2024

Corrado Rainone

Michaël Defferrard

Papers citing "CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay"

6 / 6 papers shown

Title
Synthesizing Programmatic Reinforcement Learning Policies with Large Language Model Guided Search Max Liu Chan-Hung Yu Wei-Hsu Lee Cheng-Wei Hung Yen-Chun Chen Shao-Hua Sun 42 3 0 26 May 2024
Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models Avi Singh John D. Co-Reyes Rishabh Agarwal Ankesh Anand Piyush Patil ... Yamini Bansal Ethan Dyer Behnam Neyshabur Jascha Narain Sohl-Dickstein Noah Fiedel ALM LRM ReLM SyDa 144 143 0 11 Dec 2023
Tackling the Abstraction and Reasoning Corpus (ARC) with Object-centric Models and the MDL Principle Sébastien Ferré LRM 24 1 0 01 Nov 2023
Learning Program Synthesis for Integer Sequences from Scratch Thibault Gauthier Josef Urban 40 6 0 24 Feb 2022
Formal Mathematics Statement Curriculum Learning Stanislas Polu Jesse Michael Han Kunhao Zheng Mantas Baksys Igor Babuschkin Ilya Sutskever AIMat 58 115 0 03 Feb 2022
Neural-guided, Bidirectional Program Search for Abstraction and Reasoning Simon Alford Anshul Gandhi Akshay Rangamani Andrzej Banburski Tony Wang Sylee Dandekar John Chin T. Poggio S. Chin LRM 91 21 0 22 Oct 2021