v1v2v3 (latest)

Generation and Comprehension of Unambiguous Object Descriptions

7 November 2015

ArXiv (abs)PDF HTML Github (164★)

Papers citing "Generation and Comprehension of Unambiguous Object Descriptions"

50 / 917 papers shown

Title
Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? Gregor Geigle Radu Timofte Goran Glavaš 223 2 0 20 Jun 2024
GroPrompt: Efficient Grounded Prompting and Adaptation for Referring Video Object Segmentation Ci-Siang Lin I-Jieh Liu Min-Hung Chen Chien-Yi Wang Sifei Liu Yu-Chiang Frank Wang VOS 195 1 0 18 Jun 2024
Unveiling Encoder-Free Vision-Language Models Haiwen Diao Yufeng Cui Xiaotong Li Yueze Wang Huchuan Lu Xinlong Wang VLM 206 63 0 17 Jun 2024
LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning Dantong Niu Yuvan Sharma Giscard Biamby Jerome Quenum Yutong Bai Baifeng Shi Trevor Darrell Roei Herzig LM&Ro VLM 209 56 0 17 Jun 2024
WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences Yujie Lu Dongfu Jiang Wenhu Chen William Yang Wang Yejin Choi Bill Yuchen Lin VLM 412 53 0 16 Jun 2024
From Pixels to Prose: A Large Dataset of Dense Image Captions Vasu Singla Kaiyu Yue Sukriti Paul Reza Shirkavand Mayuka Jayawardhana Alireza Ganjdanesh Heng Huang A. Bhatele Gowthami Somepalli Tom Goldstein 3DV VLM 266 38 0 14 Jun 2024
MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning Hanqing Wang Zeguan Xiao Shuo Wang Guanhua Chen Guanhua Chen 325 49 0 13 Jun 2024
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text Qingyun Li Zhe Chen Weiyun Wang Wenhai Wang Shenglong Ye ... Dahua Lin Yu Qiao Botian Shi Conghui He Jifeng Dai VLM OffRL 204 46 0 12 Jun 2024
MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models Tianle Gu Zeyang Zhou Kexin Huang Dandan Liang Yixu Wang ... Keqing Wang Yujiu Yang Yan Teng Botian Shi Yingchun Wang ELM 249 32 0 11 Jun 2024
1st Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation Mingqi Gao Jingnan Luo Jinyu Yang Jungong Han Feng Zheng 210 2 0 11 Jun 2024
Advancing Grounded Multimodal Named Entity Recognition via LLM-Based Reformulation and Box-Based Segmentation Jinyuan Li Z. Li Han Li Jianfei Yu Rui Xia Di Sun Gang Pan 219 4 0 11 Jun 2024
F-LMM: Grounding Frozen Large Multimodal ModelsComputer Vision and Pattern Recognition (CVPR), 2024 Size Wu Sheng Jin Wenwei Zhang Lumin Xu Wentao Liu Wei Li Chen Change Loy MLLM 552 21 0 09 Jun 2024
Towards Semantic Equivalence of Tokenization in Multimodal LLMInternational Conference on Learning Representations (ICLR), 2024 Shengqiong Wu Hao Fei Xiangtai Li Jiayi Ji Hanwang Zhang Tat-Seng Chua Shuicheng Yan MLLM 502 56 0 07 Jun 2024
RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and ManipulationNeural Information Processing Systems (NeurIPS), 2024 Jiaming Liu Mengzhen Liu Zhenyu Wang Lily Lee Kaichen Zhou Pengju An Senqiao Yang Renrui Zhang Yandong Guo Shanghang Zhang LM&Ro LRM Mamba 249 20 0 06 Jun 2024
Learning Visual Prompts for Guiding the Attention of Vision Transformers Razieh Rezaei Masoud Jalili Sabet Jindong Gu Daniel Rueckert Juil Sock Ashkan Khakzar 146 9 0 05 Jun 2024
HPE-CogVLM: New Head Pose Grounding Task Exploration on Vision Language Model Yu Tian Tianqi Shao Tsukasa Demizu Xuyang Wu Hsin-Tai Wu 214 3 0 04 Jun 2024
SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation Danni Yang Jiayi Ji Yiwei Ma Tianyu Guo Haowei Wang Xiaoshuai Sun Rongrong Ji ISeg VLM 315 13 0 03 Jun 2024
Visual Perception by Large Language Model's Weights Feipeng Ma Hongwei Xue Guangting Wang Yizhou Zhou Fengyun Rao Shilin Yan Yueyi Zhang Siying Wu Mike Zheng Shou Xiaoyan Sun VLM 142 18 0 30 May 2024
Benchmarking and Improving Detail Image Caption Hongyuan Dong Jiawen Li Bohong Wu Jiacong Wang Yuan Zhang Haoyuan Guo VLM MLLM 406 58 0 29 May 2024
Intent3D: 3D Object Detection in RGB-D Scans Based on Human Intention Weitai Kang Mengxue Qu Jyoti Kini Yunchao Wei Mubarak Shah Yan Yan LM&Ro 3DPC 222 16 0 28 May 2024
The Evolution of Multimodal Model Architectures S. Wadekar Abhishek Chaurasia Vasu Sharma Eugenio Culurciello 285 26 0 28 May 2024
Seeing the Image: Prioritizing Visual Correlation by Contrastive Alignment Xin Xiao Bohong Wu Jiacong Wang Chunyuan Li Xun Zhou Haoyuan Guo VLM 153 19 0 28 May 2024
LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding Haoyu Zhao Wenhang Ge Ying-Cong Chen ObjD MLLM VLM 249 7 0 27 May 2024
A Survey of Multimodal Large Language Model from A Data-centric Perspective Tianyi Bai Hao Liang Binwang Wan Yanran Xu Xi Li ... Ping Huang Jiulong Shan Conghui He Binhang Yuan Wentao Zhang 335 64 0 26 May 2024
Map-based Modular Approach for Zero-shot Embodied Question Answering Koya Sakamoto Daich Azuma Taiki Miyanishi Shuhei Kurita M. Kawanabe 240 5 0 26 May 2024
Streaming Long Video Understanding with Large Language Models Rui Qian Xiao-wen Dong Pan Zhang Yuhang Zang Shuangrui Ding Dahua Lin Yuan Liu VLM 223 109 0 25 May 2024
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models Chunjiang Ge Sijie Cheng Xiangqi Jin Jiale Yuan Yuan Gao Jun Song Shiji Song Gao Huang Bo Zheng MLLM VLM 195 23 0 24 May 2024
Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models Yue Zhang Hehe Fan Yi Yang 247 6 0 24 May 2024
HDC: Hierarchical Semantic Decoding with Counting Assistance for Generalized Referring Expression Segmentation Zhuoyan Luo Yinghao Wu Yong-Jin Liu Yicheng Xiao Jinqiang Cui Yujiu Yang 254 4 0 24 May 2024
Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation Weize Li Zhicheng Zhao Haochen Bai Fei Su 415 6 0 24 May 2024
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception Run Luo Yunshui Li Longze Chen Wanwei He Ting-En Lin ... Zikai Song Xiaobo Xia Tongliang Liu Min Yang Binyuan Hui VLM DiffM 394 33 0 24 May 2024
Rethinking Overlooked Aspects in Vision-Language Models Yuan Liu Le Tian Xiao Zhou Jie Zhou VLM 220 2 0 20 May 2024
Efficient Multimodal Large Language Models: A Survey Yizhang Jin Jian Li Yexin Liu Tianjun Gu Kai Wu ... Xin Tan Zhenye Gan Yabiao Wang Chengjie Wang Lizhuang Ma LRM 261 84 0 17 May 2024
HARIS: Human-Like Attention for Reference Image SegmentationIEEE International Conference on Multimedia and Expo (ICME), 2024 Mengxi Zhang Heqing Lian Yiming Liu Jie Chen VLM 252 0 0 17 May 2024
Driving Referring Video Object Segmentation with Vision-Language Pre-trained Models Zikun Zhou Wentao Xiong Li Zhou Xin Li Zhenyu He Yaowei Wang VOS VLM 150 0 0 17 May 2024
Adversarial Robustness for Visual Grounding of Multimodal Large Language Models Kuofeng Gao Yang Bai Jiawang Bai Yong Yang Shu-Tao Xia AAML 217 25 0 16 May 2024
Spatial Semantic Recurrent Mining for Referring Image Segmentation Jiaxing Yang Lihe Zhang Jiayu Sun Huchuan Lu 259 1 0 15 May 2024
DARA: Domain- and Relation-aware Adapters Make Parameter-efficient Tuning for Visual GroundingIEEE International Conference on Multimedia and Expo (ICME), 2024 Ting Liu Xuyang Liu Siteng Huang Honggang Chen Quanjun Yin Long Qin Donglin Wang Yue Hu 213 10 0 10 May 2024
Paint by Inpaint: Learning to Add Image Objects by Removing Them First Navve Wasserman Noam Rotstein Roy Ganz Ron Kimmel DiffM 393 27 0 28 Apr 2024
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites Zhe Chen Weiyun Wang Hao Tian Shenglong Ye Zhangwei Gao ... Tong Lu Dahua Lin Yu Qiao Jifeng Dai Wenhai Wang MLLM VLM 458 963 0 25 Apr 2024
Continual Learning of Large Language Models: A Comprehensive Survey Haizhou Shi Zihao Xu Hengyi Wang Weiyi Qin Wenyuan Wang Yibin Wang Zifeng Wang Sayna Ebrahimi Hao Wang CLL KELM LRM 357 146 0 25 Apr 2024
List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs An Yan Zhengyuan Yang Junda Wu Wanrong Zhu Jianwei Yang ... Kevin Qinghong Lin Jianfeng Wang Julian McAuley Jianfeng Gao Lijuan Wang LRM 256 24 0 25 Apr 2024
Lost in Space: Probing Fine-grained Spatial Understanding in Vision and Language Resamplers Georgios Pantazopoulos Alessandro Suglia Oliver Lemon Arash Eshghi VLM 191 8 0 21 Apr 2024
HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding Linhui Xiao Xiaoshan Yang Fang Peng Yaowei Wang Changsheng Xu ObjD 299 31 0 20 Apr 2024
Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models Chuofan Ma Yi Jiang Jiannan Wu Zehuan Yuan Xiaojuan Qi VLM ObjD 209 104 0 19 Apr 2024
Resilience through Scene Context in Visual Referring Expression Generation Simeon Junker Sina Zarrieß 99 4 0 18 Apr 2024
What does CLIP know about peeling a banana? Claudia Cuttano Gabriele Rosi Gabriele Trivigno Giuseppe Averta 212 9 0 18 Apr 2024
Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation Qiyuan Dai Sibei Yang 177 24 0 18 Apr 2024
MEEL: Multi-Modal Event Evolution Learning Zhengwei Tao Zhi Jin Junqiang Huang Xiancai Chen Xiaoying Bai Haiyan Zhao Yifan Zhang Chongyang Tao 165 1 0 16 Apr 2024
TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding Bozhi Luan Hao Feng Hong Chen Yonghui Wang Wen-gang Zhou Houqiang Li MLLM 215 25 0 15 Apr 2024