Title
RoboCAS: A Benchmark for Robotic Manipulation in Complex Object Arrangement Scenarios Liming Zheng Feng Yan Fanfan Liu Chengjian Feng Zhuoliang Kang Lin Ma 280 8 0 09 Jul 2024
CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic ModelingAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Minghui Fang Shengpeng Ji Jialong Zuo Hai Huang Yan Xia ... Xiaoda Yang Wenrui Liu Gang Wang Zhenhua Dong Zhou Zhao 149 9 0 25 Jun 2024
Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model Lu Xu Sijie Zhu Chunyuan Li Chia-Wen Kuo Fan Chen Xinyao Wang Guang Chen Dawei Du Ye Yuan Longyin Wen 243 13 0 15 Jun 2024
RU-AI: A Large Multimodal Dataset for Machine Generated Content DetectionThe Web Conference (WWW), 2024 Liting Huang Zhihao Zhang Yiran Zhang Xiyue Zhou Shoujin Wang NoLa 191 8 0 07 Jun 2024
"Pass the butter": A study on desktop-classic multitasking robotic arm based on advanced YOLOv7 and BERT Haohua Que Wenbin Pan Jie Xu Hao Luo Pei Wang Li Zhang 134 1 0 27 May 2024
OmniBind: Teach to Build Unequal-Scale Modality Interaction for Omni-Bind of All Yuanhuiyi Lyu Xueye Zheng Dahun Kim Lin Wang 228 20 0 25 May 2024
A Survey on Vision-Language-Action Models for Embodied AI Yueen Ma Zixing Song Yuzheng Zhuang Jianye Hao Irwin King LM&Ro 832 157 0 23 May 2024
Imp: Highly Capable Large Multimodal Models for Mobile Devices Zhenwei Shao Zhou Yu Jun Yu Xuecheng Ouyang Lihao Zheng Zhenbiao Gai Mingyang Wang Jiajun Ding 219 23 0 20 May 2024
Efficient Multimodal Large Language Models: A Survey Yizhang Jin Jian Li Yexin Liu Tianjun Gu Kai Wu ... Xin Tan Zhenye Gan Yabiao Wang Chengjie Wang Lizhuang Ma LRM 261 84 0 17 May 2024
Natural Language Can Help Bridge the Sim2Real Gap Albert Yu Adeline Foote Raymond J. Mooney Roberto Martín-Martín LM&Ro 361 21 0 16 May 2024
UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark Zhaokun Zhou Qiulin Wang Bin Lin Yiwei Su Ruoxin Chen Xin Tao Amin Zheng Li-xin Yuan Pengfei Wan Di Zhang 123 29 0 15 Apr 2024
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators Shenghai Yuan Jinfa Huang Yujun Shi Yongqi Xu Ruijie Zhu Bin Lin Xinhua Cheng Li-xin Yuan Jiebo Luo VGen 415 55 0 07 Apr 2024
WorDepth: Variational Language Prior for Monocular Depth EstimationComputer Vision and Pattern Recognition (CVPR), 2024 Ziyao Zeng Daniel Wang Fengyu Yang Hyoungseob Park Yangchao Wu Stefano Soatto Byung-Woo Hong Dong Lao Alex Wong MDE 579 40 0 04 Apr 2024
Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward Ruohong Zhang Liangke Gui Zhiqing Sun Yihao Feng Keyang Xu ... Di Fu Chunyuan Li Alexander G. Hauptmann Yonatan Bisk Yiming Yang MLLM 345 116 0 01 Apr 2024
Open-Set Recognition in the Age of Vision-Language Models Dimity Miller Niko Sünderhauf Alex Kenna Keita Mason VLM 222 10 0 25 Mar 2024
LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models Yaowei Zheng Richong Zhang Junhao Zhang Yanhan Ye Zheyan Luo Zhangchi Feng Yongqiang Ma 608 1,089 0 20 Mar 2024
VideoPrism: A Foundational Visual Encoder for Video Understanding Long Zhao N. B. Gundavarapu Liangzhe Yuan Hao Zhou Shen Yan ... Huisheng Wang Hartwig Adam Mikhail Sirotenko Ting Liu Boqing Gong VGen 361 65 0 20 Feb 2024
MM-LLMs: Recent Advances in MultiModal Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Duzhen Zhang Yahan Yu Jiahua Dong Chenxing Li Dan Su Chenhui Chu Dong Yu OffRL LRM 452 326 0 24 Jan 2024
When Large Language Model Agents Meet 6G Networks: Perception, Grounding, and AlignmentIEEE wireless communications (IEEE Wireless Commun.), 2024 Minrui Xu Dusit Niyato Jiawen Kang Zehui Xiong Shiwen Mao Zhu Han Dong In Kim K. B. Letaief LLMAG 173 85 0 15 Jan 2024
Video Understanding with Large Language Models: A Survey Yunlong Tang Jing Bi Siting Xu Luchuan Song Susan Liang ... Feng Zheng Jianguo Zhang Chenliang Xu Jiebo Luo Chenliang Xu VLM 643 161 0 29 Dec 2023
Video-LLaVA: Learning United Visual Representation by Alignment Before Projection Bin Lin Yang Ye Bin Zhu Jiaxi Cui Munan Ning Peng Jin Li-ming Yuan VLM MLLM 1.4K 1,143 0 16 Nov 2023

1 2 3

Home
Papers
2310.01852
Cited By

v1v2v3v4v5v6v7 (latest)

LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment

International Conference on Learning Representations (ICLR), 2023

3 October 2023

Bin Lin

HongFa Wang

Wei Liu

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)Github (810★)

Papers citing "LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment"

21 / 121 papers shown

Title
RoboCAS: A Benchmark for Robotic Manipulation in Complex Object Arrangement Scenarios Liming Zheng Feng Yan Fanfan Liu Chengjian Feng Zhuoliang Kang Lin Ma 280 8 0 09 Jul 2024
CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic ModelingAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Minghui Fang Shengpeng Ji Jialong Zuo Hai Huang Yan Xia ... Xiaoda Yang Wenrui Liu Gang Wang Zhenhua Dong Zhou Zhao 149 9 0 25 Jun 2024
Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model Lu Xu Sijie Zhu Chunyuan Li Chia-Wen Kuo Fan Chen Xinyao Wang Guang Chen Dawei Du Ye Yuan Longyin Wen 243 13 0 15 Jun 2024
RU-AI: A Large Multimodal Dataset for Machine Generated Content DetectionThe Web Conference (WWW), 2024 Liting Huang Zhihao Zhang Yiran Zhang Xiyue Zhou Shoujin Wang NoLa 191 8 0 07 Jun 2024
"Pass the butter": A study on desktop-classic multitasking robotic arm based on advanced YOLOv7 and BERT Haohua Que Wenbin Pan Jie Xu Hao Luo Pei Wang Li Zhang 134 1 0 27 May 2024
OmniBind: Teach to Build Unequal-Scale Modality Interaction for Omni-Bind of All Yuanhuiyi Lyu Xueye Zheng Dahun Kim Lin Wang 228 20 0 25 May 2024
A Survey on Vision-Language-Action Models for Embodied AI Yueen Ma Zixing Song Yuzheng Zhuang Jianye Hao Irwin King LM&Ro 832 157 0 23 May 2024
Imp: Highly Capable Large Multimodal Models for Mobile Devices Zhenwei Shao Zhou Yu Jun Yu Xuecheng Ouyang Lihao Zheng Zhenbiao Gai Mingyang Wang Jiajun Ding 219 23 0 20 May 2024
Efficient Multimodal Large Language Models: A Survey Yizhang Jin Jian Li Yexin Liu Tianjun Gu Kai Wu ... Xin Tan Zhenye Gan Yabiao Wang Chengjie Wang Lizhuang Ma LRM 261 84 0 17 May 2024
Natural Language Can Help Bridge the Sim2Real Gap Albert Yu Adeline Foote Raymond J. Mooney Roberto Martín-Martín LM&Ro 361 21 0 16 May 2024
UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark Zhaokun Zhou Qiulin Wang Bin Lin Yiwei Su Ruoxin Chen Xin Tao Amin Zheng Li-xin Yuan Pengfei Wan Di Zhang 123 29 0 15 Apr 2024
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators Shenghai Yuan Jinfa Huang Yujun Shi Yongqi Xu Ruijie Zhu Bin Lin Xinhua Cheng Li-xin Yuan Jiebo Luo VGen 415 55 0 07 Apr 2024
WorDepth: Variational Language Prior for Monocular Depth EstimationComputer Vision and Pattern Recognition (CVPR), 2024 Ziyao Zeng Daniel Wang Fengyu Yang Hyoungseob Park Yangchao Wu Stefano Soatto Byung-Woo Hong Dong Lao Alex Wong MDE 579 40 0 04 Apr 2024
Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward Ruohong Zhang Liangke Gui Zhiqing Sun Yihao Feng Keyang Xu ... Di Fu Chunyuan Li Alexander G. Hauptmann Yonatan Bisk Yiming Yang MLLM 345 116 0 01 Apr 2024
Open-Set Recognition in the Age of Vision-Language Models Dimity Miller Niko Sünderhauf Alex Kenna Keita Mason VLM 222 10 0 25 Mar 2024
LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models Yaowei Zheng Richong Zhang Junhao Zhang Yanhan Ye Zheyan Luo Zhangchi Feng Yongqiang Ma 608 1,089 0 20 Mar 2024
VideoPrism: A Foundational Visual Encoder for Video Understanding Long Zhao N. B. Gundavarapu Liangzhe Yuan Hao Zhou Shen Yan ... Huisheng Wang Hartwig Adam Mikhail Sirotenko Ting Liu Boqing Gong VGen 361 65 0 20 Feb 2024
MM-LLMs: Recent Advances in MultiModal Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Duzhen Zhang Yahan Yu Jiahua Dong Chenxing Li Dan Su Chenhui Chu Dong Yu OffRL LRM 452 326 0 24 Jan 2024
When Large Language Model Agents Meet 6G Networks: Perception, Grounding, and AlignmentIEEE wireless communications (IEEE Wireless Commun.), 2024 Minrui Xu Dusit Niyato Jiawen Kang Zehui Xiong Shiwen Mao Zhu Han Dong In Kim K. B. Letaief LLMAG 173 85 0 15 Jan 2024
Video Understanding with Large Language Models: A Survey Yunlong Tang Jing Bi Siting Xu Luchuan Song Susan Liang ... Feng Zheng Jianguo Zhang Chenliang Xu Jiebo Luo Chenliang Xu VLM 643 161 0 29 Dec 2023
Video-LLaVA: Learning United Visual Representation by Alignment Before Projection Bin Lin Yang Ye Bin Zhu Jiaxi Cui Munan Ning Peng Jin Li-ming Yuan VLM MLLM 1.4K 1,143 0 16 Nov 2023

1 2 3