Title
Demo2Code: From Summarizing Demonstrations to Synthesizing Code via Extended Chain-of-Thought Huaxiaoyue Wang Gonzalo Gonzalez-Pumariega Yash Sharma Sanjiban Choudhury LM&Ro 31 33 0 26 May 2023
Voyager: An Open-Ended Embodied Agent with Large Language Models Guanzhi Wang Yuqi Xie Yunfan Jiang Ajay Mandlekar Chaowei Xiao Yuke Zhu Linxi Fan Anima Anandkumar LM&Ro SyDa 51 757 0 25 May 2023
The Art of SOCRATIC QUESTIONING: Recursive Thinking with Large Language Models Jingyuan Qi Zhiyang Xu Ying Shen Minqian Liu dingnan jin Qifan Wang Lifu Huang ReLM LRM KELM 19 11 0 24 May 2023
Improving Factuality and Reasoning in Language Models through Multiagent Debate Yilun Du Shuang Li Antonio Torralba J. Tenenbaum Igor Mordatch LLMAG LRM 44 606 0 23 May 2023
Images in Language Space: Exploring the Suitability of Large Language Models for Vision & Language Tasks Sherzod Hakimov David Schlangen VLM 36 5 0 23 May 2023
i-Code Studio: A Configurable and Composable Framework for Integrative AI Yuwei Fang Mahmoud Khademi Chenguang Zhu Ziyi Yang Reid Pryzant ... Yao Qian Takuya Yoshioka Lu Yuan Michael Zeng Xuedong Huang 35 2 0 23 May 2023
Album Storytelling with Iterative Story-aware Captioning and Large Language Models Munan Ning Yujia Xie Dongdong Chen Zeyin Song Lu Yuan Yonghong Tian QiXiang Ye Liuliang Yuan 33 8 0 22 May 2023
Multimodal Web Navigation with Instruction-Finetuned Foundation Models Hiroki Furuta Kuang-Huei Lee Ofir Nachum Yutaka Matsuo Aleksandra Faust S. Gu Izzeddin Gur LM&Ro 36 92 0 19 May 2023
Semantic Anomaly Detection with Large Language Models Amine Elhafsi Rohan Sinha Christopher Agia Edward Schmerling I. Nesnas Marco Pavone 37 65 0 18 May 2023
Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model Siyuan Huang Zhengkai Jiang Hao Dong Yu Qiao Peng Gao Hongsheng Li LM&Ro 27 93 0 18 May 2023
Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization Puyuan Peng Brian Yan Shinji Watanabe David Harwath VLM LRM 40 46 0 18 May 2023
Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2 into a Robot Language Model for Grounded Task Planning Georgia Chalvatzaki A. Younes Daljeet Nandha An T. Le Leonardo F. R. Ribeiro Iryna Gurevych LM&Ro LRM LLMAG 30 30 0 12 May 2023
TidyBot: Personalized Robot Assistance with Large Language Models Jimmy Wu Rika Antonova Adam Kan Marion Lepert Andy Zeng Shuran Song Jeannette Bohg Szymon Rusinkiewicz Thomas Funkhouser LM&Ro 34 284 0 09 May 2023
Large Language Model Programs Imanol Schlag Sainbayar Sukhbaatar Asli Celikyilmaz Wen-tau Yih Jason Weston Jürgen Schmidhuber Xian Li LRM 36 14 0 09 May 2023
A Taxonomy of Foundation Model based Systems through the Lens of Software Architecture Qinghua Lu Liming Zhu Xiwei Xu Yue Liu Zhenchang Xing Jon Whittle 28 11 0 09 May 2023
Read, Diagnose and Chat: Towards Explainable and Interactive LLMs-Augmented Depression Detection in Social Media Wei Qin Zetong Chen Lei Wang Yunshi Lan Wei Ren Richang Hong AI4MH 30 18 0 09 May 2023
Automatic Prompt Optimization with "Gradient Descent" and Beam Search Reid Pryzant Dan Iter Jerry Li Y. Lee Chenguang Zhu Michael Zeng 11 302 0 04 May 2023
Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang Hung-yi Lee ALM LM&MA 226 572 0 03 May 2023
Multimodal Procedural Planning via Dual Text-Image Prompting Yujie Lu Pan Lu Zhiyu Zoey Chen Wanrong Zhu Qing Guo William Yang Wang LM&Ro 62 43 0 02 May 2023
Multimodal Grounding for Embodied AI via Augmented Reality Headsets for Natural Language Driven Task Planning Selma Wanna Fabian Parra R. Valner Karl Kruusamäe Mitch Pryor LM&Ro 26 2 0 26 Apr 2023
From Association to Generation: Text-only Captioning by Unsupervised Cross-modal Mapping Junyan Wang Ming Yan Yi Zhang Jitao Sang CLIP VLM 24 8 0 26 Apr 2023
LLM as A Robotic Brain: Unifying Egocentric Memory and Control Jinjie Mai Jun Chen Bing Li Guocheng Qian Mohamed Elhoseiny Guohao Li LM&Ro 19 33 0 19 Apr 2023
Tool Learning with Foundation Models Yujia Qin Shengding Hu Yankai Lin Weize Chen Ning Ding ... Cheng Yang Tongshuang Wu Heng Ji Zhiyuan Liu Maosong Sun 42 200 0 17 Apr 2023
API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs Minghao Li Yingxiu Zhao Yu Bowen Feifan Song Hangyu Li Haiyang Yu Zhoujun Li Fei Huang Yongbin Li ELM RALM CLL 26 142 0 14 Apr 2023
FM-Loc: Using Foundation Models for Improved Vision-based Localization Reihaneh Mirjalili Michael Krawez Wolfram Burgard VLM 36 15 0 14 Apr 2023
Verbs in Action: Improving verb understanding in video-language models Liliane Momeni Mathilde Caron Arsha Nagrani Andrew Zisserman Cordelia Schmid 37 70 0 13 Apr 2023
A Reference Architecture for Designing Foundation Model based Systems Qinghua Lu Liming Zhu Xiwei Xu Zhenchang Xing Jon Whittle AI4TS AI4CE 21 2 0 13 Apr 2023
ChatGPT Empowered Long-Step Robot Control in Various Environments: A Case Application Naoki Wake Atsushi Kanehira Kazuhiro Sasabuchi Jun Takamatsu Katsushi Ikeuchi LM&Ro 38 80 0 08 Apr 2023
Object-centric Inference for Language Conditioned Placement: A Foundation Model based Approach Zhi-Wei Xu Kechun Xu Yue Wang R. Xiong OCL 18 4 0 06 Apr 2023
VicTR: Video-conditioned Text Representations for Activity Recognition Kumara Kahatapitiya Anurag Arnab Arsha Nagrani Michael S. Ryoo 36 19 0 05 Apr 2023
Grounding Object Relations in Language-Conditioned Robotic Manipulation with Semantic-Spatial Reasoning Qian Luo Yunfei Li Yi Wu LM&Ro 45 5 0 31 Mar 2023
Language Models can Solve Computer Tasks Geunwoo Kim Pierre Baldi Stephen Marcus McAleer LLMAG LM&Ro 43 342 0 30 Mar 2023
Text2Motion: From Natural Language Instructions to Feasible Plans Kevin Qinghong Lin Christopher Agia Toki Migimatsu Marco Pavone Jeannette Bohg LM&Ro 23 266 0 21 Mar 2023
eP-ALM: Efficient Perceptual Augmentation of Language Models Mustafa Shukor Corentin Dancette Matthieu Cord MLLM VLM 32 29 0 20 Mar 2023
MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action Zhengyuan Yang Linjie Li Jianfeng Wang Kevin Qinghong Lin E. Azarnasab Faisal Ahmed Zicheng Liu Ce Liu Michael Zeng Lijuan Wang ReLM KELM LRM 17 368 0 20 Mar 2023
Retrieving Multimodal Information for Augmented Generation: A Survey Ruochen Zhao Hailin Chen Weishi Wang Fangkai Jiao Do Xuan Long ... Bosheng Ding Xiaobao Guo Minzhi Li Xingxuan Li Shafiq R. Joty 31 80 0 20 Mar 2023
Chat with the Environment: Interactive Multimodal Perception Using Large Language Models Xufeng Zhao Mengdi Li C. Weber Muhammad Burhan Hafez S. Wermter LLMAG LM&Ro LRM 107 47 0 14 Mar 2023
ViperGPT: Visual Inference via Python Execution for Reasoning Dídac Surís Sachit Menon Carl Vondrick MLLM LRM ReLM 45 431 0 14 Mar 2023
Architext: Language-Driven Generative Architecture Design Theodoros Galanos Antonios Liapis Georgios N. Yannakakis VLM AI4CE 26 6 0 13 Mar 2023
Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images Nitzan Bitton-Guetta Yonatan Bitton Jack Hessel Ludwig Schmidt Yuval Elovici Gabriel Stanovsky Roy Schwartz VLM 121 66 0 13 Mar 2023
ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation Bang-ju Yang Fenglin Liu Yuexian Zou Xian Wu Yaowei Wang David A. Clifton 31 9 0 11 Mar 2023
Controllable Video Generation by Learning the Underlying Dynamical System with Neural ODE Yucheng Xu Nanbo Li A. Goel Zijian Guo Zonghai Yao H. Kasaei Mohammad-Sajad Kasaei Zhibin Li 41 5 0 09 Mar 2023
ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction Jiabang He Lei Wang Yingpeng Hu Ning Liu Hui-juan Liu Xingdong Xu Hengtao Shen MLLM 6 47 0 09 Mar 2023
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models Jiarui Xu Sifei Liu Arash Vahdat Wonmin Byeon Xiaolong Wang Shalini De Mello VLM 223 320 0 08 Mar 2023
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models Chenfei Wu Sheng-Kai Yin Weizhen Qi Xiaodong Wang Zecheng Tang Nan Duan MLLM LRM 44 614 0 08 Mar 2023
Sample Efficient Multimodal Semantic Augmentation for Incremental Summarization Sumanta Bhattacharyya R. Manuvinakurike Sahisnu Mazumder Saurav Sahay VLM 18 0 0 08 Mar 2023
Foundation Models for Decision Making: Problems, Methods, and Opportunities Sherry Yang Ofir Nachum Yilun Du Jason W. Wei Pieter Abbeel Dale Schuurmans LM&Ro OffRL LRM AI4CE 95 155 0 07 Mar 2023
PaLM-E: An Embodied Multimodal Language Model Danny Driess F. Xia Mehdi S. M. Sajjadi Corey Lynch Aakanksha Chowdhery ... Marc Toussaint Klaus Greff Andy Zeng Igor Mordatch Peter R. Florence LM&Ro 22 1,565 0 06 Mar 2023
DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only Training Wei Li Linchao Zhu Longyin Wen Yi Yang VLM 45 86 0 06 Mar 2023
Prismer: A Vision-Language Model with Multi-Task Experts Shikun Liu Linxi Fan Edward Johns Zhiding Yu Chaowei Xiao Anima Anandkumar VLM MLLM 44 21 0 04 Mar 2023