143

v1v2v3 (latest)

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

8 March 2024

Soroosh Mariooryad

Cosmin Paduraru

Christina Sorokin

Andrea Tacchetti

Olcan Sercinoglu

P. Voigtlaender

Paul Barham

Kareem W. Ayoub

Kornraphop Kawintiranon

Gregory Thornton

Zhen Yang

Nathan Schucher

Nobuyuki Morioka

Krishna Haridasan

Salem Haykal

Raoul de Liedekerke

Siddharth Goyal

Mukund Sundararajan

Nithya Attaluri

Dmitry Lepikhin

Michela Paganini

Timothy Chung

Petko Georgiev

Ambrose Slone

Siyuan Qiao

Siddhartha Brahma

Lucas González

Raphael Lopez Kaufman

Yunhao Tang

George van den Driessche

Yingjie Miao

Denis Teplyashin

Sebastian Riedel

Aakanksha Chowdhery

Anastasia Petrushkina

Adria Puigdomenech Badia

Robin Strudel

Sébastien M. R. Arnold

Jordan Grimstad

Sebastian Borgeaud

Abhimanyu Goyal

Gabe Barth-Maron

Sanjay Ganapathy

Kaushik Shivakumar

Rishabh Agarwal

Rhys May

Arpi Vezer

Victor Ungureanu

Bat-Orgil Batsaikhan

Sean Sechrist

Martin Chadwick

Madhu Gurumurthy

Lampros Lamprou

Malcolm Reynolds

Justin Mao-Jones

Jordan Griffith

Jakub Sygnowski

J Christopher Love

Beer Changpinyo

Christina Butterfield

Anastasia Petrushkina

Lorenzo Maggiore

Nithya Attaluri

Gregory Thornton

Rory Blevins

Evgenii Eltyshev

Timothy Lillicrap

Vaibhav Aggarwal

Kartikeya Badola

Paramjit Sandhu

Anirudh Baddepudi

Elahe Rahimtoroghi

Pablo Sprechmann

Kalpesh Krishna

Alexandre Frechette

Zafarali Ahmed

Aishwarya Kamath

Eliza Rutherford

Chalence Safranek-Shrader

Mantas Pajarskas

Meire Fortunato

Gamaleldin F. Elsayed

Peter C. Humphreys

Rajkumar Samuel

Cicero Nogueira dos Santos

Anders Andreassen

Nemanja Rakićević

Stephanie Winkler

Hannah R. Sheahan

Feryal Behbahani

Artiom Myaskovsky

Thanumalayan Sankaranarayana Pillai

Tom Hudson

Angeliki Lazaridou

Wojciech Stokowiec

Mina Khan

Alejandro Lince

Enrique Piqueras

Elspeth White

Lisa Anne Hendricks

Jane Labanowski

Shruti Rijhwani

Joe Stanton

Alex Castro-Ros

Beer Changpinyo

Carlos Araya

A. M. Hrafnkelsson

Marcello Maggioni

Andy Swing

Dominika Rogoziñska

Dalia El Badawy

Lars Lowe Sjosund

Rahma Chaabouni

Ishita Dasgupta

Iain Barr

Tara N. Sainath

Jean-Baptiste Lespiau

Zeyncep Cankara

Katerina Tsihlas

Christian Frank

Sanjay Ganapathy

Ishita Dasgupta

Steph Hughes-Fitt

Joost R. van Amersfoort

Shixiang Shane Gu

Anhad Mohananey

Anastasija Ilić

Mohamed Elhawaty

Lakshman Yagati

Alexander Chen

Abhanshu Sharma

Carrie Grimes Bostock

Josh Lipschultz

Abhijit Karmarkar

Abe Ittycheriah

Soheil Hassas Yeganeh

George Polovets

Aleksandra Faust

Rakesh Shivanna

Jeremiah Zhe Liu

Federico Lebrón

Anirudh Baddepudi

Sebastian Krause

Emilio Parisotto

Behnam Neyshabur

Duc Dung Nguyen

Sophie Bridgers

Marco Tagliasacchi

James Lee-Thorp

Michael B. Chang

Alexey Guseynov

Ale Jakse Hartman

Richard Tanburn

Sébastien Cevey

Ramona Comanescu

Ioannis Antonoglou

Sina Samangooei

Tomás Kociský

Sarah Hodkinson

Alexandre Moufarek

Praveen Kallakuri

Vladimir Feinberg

Nikolay Savinov

Charlotte Smith

Tamara von Glehn

Pidong Wang

Disha Shrivastava

James Cobon-Kerr

Michael Sharman

Carlos L. Araya

Karolis Misiunas

Balaji Lakshminarayanan

Nathan Schucher

Fangxiaoyu Feng

Adrià Recasens

Aditya Siddhant

Mostafa Dehghani

Nilesh Tripuraneni

James Manyika

Julian Schrittwieser

Elena Buchatskaya

Soroush Radpour

Vincent J. Hellendoorn

Thibault Sottiaux

Aliaksei Severyn

Chloe Thornton

Nishesh Gupta

Yicheng Wang

Shuo-yiin Chang

Paul Kishan Rubenstein

Tom Kwiatkowski

Axel Stjerngren

Felipe Tiengo Ferreira

Aishwarya B Kamath

Indro Bhattacharya

Sayed Hadi Hashemi

Mara Finkelstein

Khuslen Baatarsukh

Sandeep Kumar

Félix de Chaumont Quitry

Charline Le Lan

Daniel Vlasic

Nir Shabat

Guolong Su

Ravichandra Addanki

Hannah Muckenhirn

Nicholas FitzGerald

Kashyap Krishnakumar

Anselm Levskaya

Laura Knight

Carl Crous

Francois Galilee

Praveen Kallakuri

Solomon Kim

Sanjay Ghemawat

Alexander Neitz

Jens Heitkaemper

Sneha Kudugunta

Clement Farabet

Anton Tsitsulin

Rajagopal Ananthanarayanan

Slav Petrov

Gabriel Barth-Maron

ArXiv (abs)PDF HTML HuggingFace (65 upvotes)

Abstract

In this report, we present the latest model of the Gemini family, Gemini 1.5 Pro, a highly compute-efficient multimodal mixture-of-experts model capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. Gemini 1.5 Pro achieves near-perfect recall on long-context retrieval tasks across modalities, improves the state-of-the-art in long-document QA, long-video QA and long-context ASR, and matches or surpasses Gemini 1.0 Ultra's state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5 Pro's long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 2.1 (200k) and GPT-4 Turbo (128k). Finally, we highlight surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.

Comments on this paper