145

v1v2v3 (latest)

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

8 March 2024

Soroosh Mariooryad

Cosmin Paduraru

Christina Sorokin

Andrea Tacchetti

Olcan Sercinoglu

P. Voigtlaender

Ross McIlroy

Kareem W. Ayoub

Kornraphop Kawintiranon

Henryk Michalewski

Zaheer Abbas

Richard Ives

Nobuyuki Morioka

Krishna Haridasan

Pranav Shyam

Raoul de Liedekerke

Siddharth Goyal

Mukund Sundararajan

Evgenii Eltyshev

Dmitry Lepikhin

Michela Paganini

Siddhartha Brahma

Zhenkai Zhu

James Lottes

Sebastian Riedel

Siddhartha Brahma

Lucas González

Raphael Lopez Kaufman

Libin Bai

George van den Driessche

Taylor Tobin

Denis Teplyashin

Sebastian Riedel

Aakanksha Chowdhery

Anastasia Petrushkina

Adria Puigdomenech Badia

Marvin Ritter

Sébastien M. R. Arnold

Jordan Grimstad

Sebastian Borgeaud

Abhimanyu Goyal

Gabe Barth-Maron

Danilo Martins

Kaushik Shivakumar

Rishabh Agarwal

Junhyuk Oh

Ken Franko

Victor Ungureanu

Bat-Orgil Batsaikhan

Thanumalayan Sankaranarayana Pillai

Martin Chadwick

Madhu Gurumurthy

Lampros Lamprou

Malcolm Reynolds

Hannah Sheahan

Jordan Griffith

Jakub Sygnowski

J Christopher Love

Anna Bortsova

Christina Butterfield

Kevin Swersky

Lorenzo Maggiore

Nithya Attaluri

Gregory Thornton

Alban Rrustemi

Evgenii Eltyshev

Timothy Lillicrap

Vaibhav Aggarwal

Kartikeya Badola

Paramjit Sandhu

James Qin

Elahe Rahimtoroghi

Pablo Sprechmann

Kalpesh Krishna

Alexandre Frechette

Arnar Mar Hrafnkelsson

Ian Mackinnon

Eliza Rutherford

Chalence Safranek-Shrader

Mantas Pajarskas

Meire Fortunato

Gamaleldin F. Elsayed

Peter C. Humphreys

Rajkumar Samuel

Cicero Nogueira dos Santos

Anders Andreassen

Nemanja Rakićević

Stephanie Winkler

Hannah R. Sheahan

Feryal Behbahani

Artiom Myaskovsky

Thanumalayan Sankaranarayana Pillai

Ravi Addanki

Angeliki Lazaridou

Jaehoon Lee

Carrie Grimes Bostock

Alejandro Lince

Enrique Piqueras

Hyeontaek Lim

Lisa Anne Hendricks

Jane Labanowski

Shruti Rijhwani

Carlos Araya

Alex Castro-Ros

Beer Changpinyo

Ankur Bapna

A. M. Hrafnkelsson

Marcello Maggioni

Stephanie Winkler

Dominika Rogoziñska

Dalia El Badawy

Lars Lowe Sjosund

Rahma Chaabouni

Lexi Walker

Richard Tanburn

Tara N. Sainath

Jean-Baptiste Lespiau

Zeyncep Cankara

Katerina Tsihlas

Christian Frank

Sanjay Ganapathy

Ishita Dasgupta

Steph Hughes-Fitt

Joost R. van Amersfoort

Shixiang Shane Gu

Anhad Mohananey

Anastasija Ilić

Mohamed Elhawaty

Lakshman Yagati

Johnson Jia

Abhanshu Sharma

Carrie Grimes Bostock

Josh Lipschultz

Abhijit Karmarkar

Abe Ittycheriah

Soheil Hassas Yeganeh

George Polovets

Aleksandra Faust

Rakesh Shivanna

Jeremiah Zhe Liu

Federico Lebrón

Anirudh Baddepudi

Sebastian Krause

Emilio Parisotto

Behnam Neyshabur

Duc Dung Nguyen

Sophie Bridgers

Marco Tagliasacchi

James Lee-Thorp

Michael B. Chang

Alexey Guseynov

Ale Jakse Hartman

Richard Tanburn

Sébastien Cevey

Ramona Comanescu

Ioannis Antonoglou

Sina Samangooei

Tomás Kociský

Sarah Hodkinson

Alexandre Moufarek

Chu-Cheng Lin

Vladimir Feinberg

Nikolay Savinov

Charlotte Smith

Tamara von Glehn

Nan Hua

Disha Shrivastava

James Cobon-Kerr

Michael Sharman

Carlos L. Araya

Karolis Misiunas

Balaji Lakshminarayanan

Nathan Schucher

Fangxiaoyu Feng

Adrià Recasens

Aditya Siddhant

Mostafa Dehghani

Kiam Choo

Jennifer Beattie

Julian Schrittwieser

Elena Buchatskaya

Soroush Radpour

Vincent J. Hellendoorn

Thibault Sottiaux

Aliaksei Severyn

Jeff Seibert

Mohamed Elhawaty

Andrey Khorlin

Shuo-yiin Chang

Paul Kishan Rubenstein

Tom Kwiatkowski

Axel Stjerngren

Felipe Tiengo Ferreira

Aishwarya B Kamath

Indro Bhattacharya

Sayed Hadi Hashemi

Mara Finkelstein

Khuslen Baatarsukh

Yannie Liang

Félix de Chaumont Quitry

Charline Le Lan

Carl Crous

Dessie Petrova

Denese Owusu-Afriyie

Ravichandra Addanki

Hannah Muckenhirn

Nicholas FitzGerald

Kashyap Krishnakumar

Anselm Levskaya

Vinod Koverkathu

Slav Petrov

Francois Galilee

ArXiv (abs)PDF HTML HuggingFace (65 upvotes)Github (150★)

Main:34 Pages

30 Figures

44 Tables

Appendix:120 Pages

Abstract

In this report, we present the latest model of the Gemini family, Gemini 1.5 Pro, a highly compute-efficient multimodal mixture-of-experts model capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. Gemini 1.5 Pro achieves near-perfect recall on long-context retrieval tasks across modalities, improves the state-of-the-art in long-document QA, long-video QA and long-context ASR, and matches or surpasses Gemini 1.0 Ultra's state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5 Pro's long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 2.1 (200k) and GPT-4 Turbo (128k). Finally, we highlight surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.

Comments on this paper