Multimodal Large Language Models with Fusion Low Rank Adaptation for
Device Directed Speech Detection

Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection

13 June 2024

Shruti Palaskar

Aswin Sivaraman

Jack Berkowitz

Ahmed Hussen Abdelaziz

Saurabh N. Adya

Ahmed H. Tewfik

Papers citing "Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection"

7 / 7 papers shown

Title
Video-LLaVA: Learning United Visual Representation by Alignment Before Projection Bin Lin Yang Ye Bin Zhu Jiaxi Cui Munan Ning Peng Jin Li-ming Yuan VLM MLLM 194 576 0 16 Nov 2023
Large Language Models are Few-Shot Clinical Information Extractors Monica Agrawal S. Hegselmann Hunter Lang Yoon Kim David Sontag BDL LM&MA 154 327 0 25 May 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 4,048 0 24 May 2022
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 278 3,784 0 18 Apr 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 278 1,939 0 09 Feb 2021
Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho Jie Lei Hao Tan Mohit Bansal MLLM 249 518 0 04 Feb 2021
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 250 922 0 24 Sep 2019