142

v1v2v3 (latest)

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

8 March 2024

Soroosh Mariooryad

Cosmin Paduraru

Christina Sorokin

Andrea Tacchetti

Olcan Sercinoglu

P. Voigtlaender

Gabriela Surita

Kareem W. Ayoub

Kornraphop Kawintiranon

Natalie Clay

Justin Gilmer

Rui Zhu

Nobuyuki Morioka

Krishna Haridasan

Mahdis Mahdieh

Raoul de Liedekerke

Siddharth Goyal

Mukund Sundararajan

Sharad Vikram

Dmitry Lepikhin

Michela Paganini

Fan Yang

Kiran Vodrahalli

Chulayuth Asawaroengchai

Livio Baldini Soares

Siddhartha Brahma

Lucas González

Raphael Lopez Kaufman

Laurent El Shafey

George van den Driessche

Santiago Ontanon

Denis Teplyashin

Sebastian Riedel

Aakanksha Chowdhery

Anastasia Petrushkina

Adria Puigdomenech Badia

Steven Hansen

Sébastien M. R. Arnold

Jordan Grimstad

Sebastian Borgeaud

Abhimanyu Goyal

Gabe Barth-Maron

Mia Chen

Kaushik Shivakumar

Rishabh Agarwal

Xerxes Dotiwalla

Yuan Liu

Victor Ungureanu

Bat-Orgil Batsaikhan

Ivo Danihelka

Martin Chadwick

Madhu Gurumurthy

Lampros Lamprou

Malcolm Reynolds

Lora Aroyo

Jordan Griffith

Jakub Sygnowski

J Christopher Love

Rishabh Joshi

Christina Butterfield

Minh Giang

Lorenzo Maggiore

Nithya Attaluri

Gregory Thornton

Chung-Cheng Chiu

Evgenii Eltyshev

Timothy Lillicrap

Vaibhav Aggarwal

Kartikeya Badola

Paramjit Sandhu

Wojciech Stokowiec

Elahe Rahimtoroghi

Pablo Sprechmann

Kalpesh Krishna

Alexandre Frechette

Emanuel Taropa

Daniel Toyama

Eliza Rutherford

Chalence Safranek-Shrader

Mantas Pajarskas

Meire Fortunato

Gamaleldin F. Elsayed

Peter C. Humphreys

Rajkumar Samuel

Cicero Nogueira dos Santos

Anders Andreassen

Nemanja Rakićević

Stephanie Winkler

Hannah R. Sheahan

Feryal Behbahani

Artiom Myaskovsky

Thanumalayan Sankaranarayana Pillai

Dan Hurt

Angeliki Lazaridou

Xiaowei Li

Dan Horgan

Alejandro Lince

Enrique Piqueras

Anudhyan Boral

Lisa Anne Hendricks

Jane Labanowski

Shruti Rijhwani

Dian Yu

Alex Castro-Ros

Beer Changpinyo

Sumit Bagri

A. M. Hrafnkelsson

Marcello Maggioni

Jason Riesa

Dominika Rogoziñska

Dalia El Badawy

Lars Lowe Sjosund

Rahma Chaabouni

Charlie Chen

Ruibo Liu

Tara N. Sainath

Jean-Baptiste Lespiau

Zeyncep Cankara

Katerina Tsihlas

Christian Frank

Sanjay Ganapathy

Ishita Dasgupta

Steph Hughes-Fitt

Joost R. van Amersfoort

Shixiang Shane Gu

Anhad Mohananey

Anastasija Ilić

Mohamed Elhawaty

Lakshman Yagati

Arun Ahuja

Abhanshu Sharma

Carrie Grimes Bostock

Josh Lipschultz

Abhijit Karmarkar

Abe Ittycheriah

Soheil Hassas Yeganeh

George Polovets

Aleksandra Faust

Rakesh Shivanna

Jeremiah Zhe Liu

Federico Lebrón

Anirudh Baddepudi

Sebastian Krause

Emilio Parisotto

Behnam Neyshabur

Duc Dung Nguyen

Sophie Bridgers

Marco Tagliasacchi

James Lee-Thorp

Michael B. Chang

Alexey Guseynov

Ale Jakse Hartman

Richard Tanburn

Sébastien Cevey

Ramona Comanescu

Ioannis Antonoglou

Sina Samangooei

Tomás Kociský

Sarah Hodkinson

Alexandre Moufarek

Stephen Spencer

Vladimir Feinberg

Nikolay Savinov

Charlotte Smith

Tamara von Glehn

Yiran Mao

Disha Shrivastava

James Cobon-Kerr

Michael Sharman

Carlos L. Araya

Karolis Misiunas

Balaji Lakshminarayanan

Nathan Schucher

Fangxiaoyu Feng

Adrià Recasens

Aditya Siddhant

Mostafa Dehghani

Xinyi Wu

Seb Arnold

Julian Schrittwieser

Elena Buchatskaya

Soroush Radpour

Vincent J. Hellendoorn

Thibault Sottiaux

Aliaksei Severyn

Mohammad Saleh

Laurent Shefey

Siyuan Qiao

Shuo-yiin Chang

Paul Kishan Rubenstein

Tom Kwiatkowski

Axel Stjerngren

Felipe Tiengo Ferreira

Aishwarya B Kamath

Indro Bhattacharya

Sayed Hadi Hashemi

Mara Finkelstein

Khuslen Baatarsukh

Henryk Michalewski

Félix de Chaumont Quitry

Charline Le Lan

Jean-baptiste Alayrac

Alexander Pritzel

Michael Isard

Ravichandra Addanki

Hannah Muckenhirn

Nicholas FitzGerald

Kashyap Krishnakumar

Anselm Levskaya

Michael B. Chang

Vahab Mirrokni

Francois Galilee

Praveen Kallakuri

Evan Palmer

Sanjay Ghemawat

Alexander Neitz

Jens Heitkaemper

Sneha Kudugunta

Clement Farabet

Anton Tsitsulin

Rajagopal Ananthanarayanan

Pei Sun

Gabriel Barth-Maron

Warren Weilun Chen

Christoph Hirnschall

Hardie Cate

Diana Gage Wright

Federico Piccinini

Lei Zhang

Yana Kulizhskaya

Ashwin Sreevatsa

Guillermo Garrido

Huaixiu Steven Zheng

Hui Li

Rebeca Santamaria-Fernandez

Wojciech Fica

Chris Gorgolewski

S. M. Ali Eslami

Sahitya Potluri

Lam Nguyen Thiet

Florian Luisier

Alexandra Chronopoulou

Salvatore Scellato

Praveen Srinivasan

Vinod Koverkathu

Valentin Dalibard

Thibault Sellam

Mani Varadarajan

Achintya Singhal

Sujeevan Rajayogam

Julian Martin Eisenschlos

D. Finchelstein

Alex Yakubovich

Daniel Balle

Jaclyn Konzelmann

Jennifer Beattie

Diane Wu

Siddhartha Reddy Jonnalagadda

D. Holtmann-Rice

Krystal Kallarackal

Luca Invernizzi

Jennifer Prendki

Kavya Kopparapu

Francoise Beaufays

Christof Angermueller

Andreea Marzoca

Rachel Sterneck

Andrey Khorlin

Sasha Goldshtein

Adnan Ozturel

Han Lu

Ming Zhang

Francesco Piccinno

Ricardo Aguilar

Sara McCarthy

Misha Khalman

Harry Richardson

Shreyas Rammohan Belle

Mahmoud Alnahlawi

Brian McWilliams

Jovana Mitrović

Joseph Pagadora

Danielle Eisenbud

Krishna Haridasan

Bhavishya Mittal

Nilesh Tripuraneni

Thomas Brovelli

Mihajlo Velimirović

Wolfgang Macherey

Gheorghe Comanici

Xinjian Li

Jayaram Mudigonda

Christopher Yew

Carey Radebaugh

Pedro Valenzuela

Eri Latorre-Chimoto

Priya Ponnapalli

Christopher A. Choquette-Choo

Harsha Vashisht

Sebastien Pereira

Denese Owusu-Afriyie

Tolga Bolukbasi

Balaji Venkatraman

Lambert Rosique

Yuchung Cheng

Andrei Sozanschi

Raphael Lopez Kaufman

Nandita Dukkipati

Anthony Baryshnikov

Christos Kaplanis

Diego de Las Casas

Kathryn Tunyasuvunakool

Matt Miecnikowski

Vahab Mirrokni

Christian Frank

Adrian Goedeckemeyer

Anitha Vijayakumar

Sadegh Jazayeri

Garrett Bingham

Francesco Pongetti

Dongseong Hwang

Jennifer Pullman

Srini Narayanan

Siddharth Gopal

Norman Casagrande

Bramandia Ramadhana

Austin Matthews

Matthew J. Johnson

Kremena Goranova

Kingshuk Dasgupta

Manish Reddy Vuyyuru

Kazuki Osawa

Ramya Sree Boppana

Marco Tagliasacchi

Alex Korchemniy

Olaf Ronneberger

Chimezie Iwuanyanwu

Shubin Zhao

Martin Sundermeyer

Chaitanya Malaviya

Inderjit Dhillon

Massimo Nicosia

Vitaly Nikolaev

Viorica Patraucean

Janek Nowakowski

Vaishakh Keshava

Shubham Agrawal

Kevin Ramirez

Duc Dung Nguyen

Jarek Wilkiewicz

Priyanka Agrawal

Xiaowei Li

Julia Wiesinger

Abhishek Chakladar

Alek Wenjiao Wang

Alireza Ghaffarkhah

Marcus Wainwright

Koray Kavukcuoglu

ArXiv (abs)PDF HTML HuggingFace (65 upvotes)

Abstract

In this report, we introduce the Gemini 1.5 family of models, representing the next generation of highly compute-efficient multimodal models capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. The family includes two new models: (1) an updated Gemini 1.5 Pro, which exceeds the February version on the great majority of capabilities and benchmarks; (2) Gemini 1.5 Flash, a more lightweight variant designed for efficiency with minimal regression in quality. Gemini 1.5 models achieve near-perfect recall on long-context retrieval tasks across modalities, improve the state-of-the-art in long-document QA, long-video QA and long-context ASR, and match or surpass Gemini 1.0 Ultra's state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5's long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 3.0 (200k) and GPT-4 Turbo (128k). Finally, we highlight real-world use cases, such as Gemini 1.5 collaborating with professionals on completing their tasks achieving 26 to 75% time savings across 10 different job categories, as well as surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.

Comments on this paper