Image Segmentation Using Text and Image Prompts

18 December 2021

Papers citing "Image Segmentation Using Text and Image Prompts"

50 / 66 papers shown

Title
VGLD: Visually-Guided Linguistic Disambiguation for Monocular Depth Scale Recovery Bojin Wu Jing Chen MDE 44 0 0 05 May 2025
Adversarial Robustness Analysis of Vision-Language Models in Medical Image Segmentation Anjila Budathoki Manish Dhakal AAML 28 0 0 05 May 2025
UAV-VLN: End-to-End Vision Language guided Navigation for UAVs Pranav Saxena Nishant Raghuvanshi Neena Goveas 69 0 0 30 Apr 2025
Diff-Prompt: Diffusion-Driven Prompt Generator with Mask Supervision Weicai Yan Wang Lin Zirun Guo Ye Wang Fangming Feng Xiaoda Yang Z. Wang Tao Jin DiffM 112 2 0 30 Apr 2025
Post-Hurricane Debris Segmentation Using Fine-Tuned Foundational Vision Models Kooshan Amini Yuhao Liu Jamie Ellen Padgett Guha Balakrishnan Ashok Veeraraghavan 31 0 0 17 Apr 2025
MediSee: Reasoning-based Pixel-level Perception in Medical Images Qinyue Tong Ziqian Lu Jun Liu Yangming Zheng Zheming Lu LRM 23 0 0 15 Apr 2025
Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering Yanpeng Zhao Yiwei Hao Siyu Gao Yunbo Wang Xiaokang Yang OCL 120 1 0 17 Feb 2025
Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion Marco Mistretta Alberto Baldrati Lorenzo Agnolucci Marco Bertini Andrew D. Bagdanov CLIP VLM 99 2 0 06 Feb 2025
Dynamic Scene Understanding from Vision-Language Representations Shahaf Pruss Morris Alper Hadar Averbuch-Elor OCL 125 0 0 20 Jan 2025
ProKeR: A Kernel Perspective on Few-Shot Adaptation of Large Vision-Language Models Yassir Bendou Amine Ouasfi Vincent Gripon A. Boukhayma VLM 51 0 0 19 Jan 2025
Know "No'' Better: A Data-Driven Approach for Enhancing Negation Awareness in CLIP J. Park Jungbeom Lee Jongyoon Song Sangwon Yu Dahuin Jung Sungroh Yoon 45 0 0 19 Jan 2025
A Comprehensive Survey of Foundation Models in Medicine Wasif Khan Seowung Leem Kyle B. See Joshua K. Wong Shaoting Zhang R. Fang AI4CE LM&MA VLM 97 17 0 17 Jan 2025
Ethical-Lens: Curbing Malicious Usages of Open-Source Text-to-Image Models Yuzhu Cai Sheng Yin Yuxi Wei Chenxin Xu Weibo Mao Felix Juefei Xu Siheng Chen Yanfeng Wang EGVM 79 2 0 03 Jan 2025
Efficient Transfer Learning for Video-language Foundation Models Haoxing Chen Zizheng Huang Y. Hong Yanshuo Wang Zhongcai Lyu Zhuoer Xu Jun Lan Zhangxuan Gu VLM 43 0 0 18 Nov 2024
AttriPrompter: Auto-Prompting with Attribute Semantics for Zero-shot Nuclei Detection via Visual-Language Pre-trained Models Yongjian Wu Yang Zhou Jiya Saiyin Bingzheng Wei M. Lai Jianzhong Shou Yan Xu VLM MedIm 25 1 0 22 Oct 2024
BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation Haechan Mark Bong Ricardo de Azambuja Giovanni Beltrame VLM 31 0 0 16 Oct 2024
VISTA: A Visual and Textual Attention Dataset for Interpreting Multimodal Models Harshit Tolga Tasdizen CoGe VLM 28 1 0 06 Oct 2024
SinkSAM: A Monocular Depth-Guided SAM Framework for Automatic Sinkhole Segmentation Osher Rafaeli T. Svoray Ariel Nahlieli 28 0 0 02 Oct 2024
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation Kun Yuan V. Srivastav Nassir Navab N. Padoy 44 7 0 30 Sep 2024
Search3D: Hierarchical Open-Vocabulary 3D Segmentation Ayca Takmaz Alexandros Delitzas R. Sumner Francis Engelmann Johanna Wald Federico Tombari 69 11 0 27 Sep 2024
HiFi-CS: Towards Open Vocabulary Visual Grounding For Robotic Grasping Using Vision-Language Models V. Bhat P. Krishnamurthy Ramesh Karri Farshad Khorrami 42 3 0 16 Sep 2024
Prompt-Based Segmentation at Multiple Resolutions and Lighting Conditions using Segment Anything Model 2 Osher Rafaeli T. Svoray Roni Blushtein-Livnon Ariel Nahlieli VLM 40 10 0 13 Aug 2024
Intelligent Artistic Typography: A Comprehensive Review of Artistic Text Design and Generation Yuhang Bai Zichuan Huang Wenshuo Gao Shuai Yang Jiaying Liu 33 5 0 20 Jul 2024
R+X: Retrieval and Execution from Everyday Human Videos Georgios Papagiannis Norman Di Palo Pietro Vitiello Edward Johns 51 15 0 17 Jul 2024
Prior Normality Prompt Transformer for Multi-class Industrial Image Anomaly Detection Haiming Yao Yunkang Cao Wei Luo Weihang Zhang Wenyong Yu Weiming Shen 31 7 0 17 Jun 2024
Understanding Multi-Granularity for Open-Vocabulary Part Segmentation Jiho Choi Seonho Lee Seungho Lee Minhyun Lee Hyunjung Shim OCL 33 0 0 17 Jun 2024
Generalizable Disaster Damage Assessment via Change Detection with Vision Foundation Model Kyeongjin Ahn Sungwon Han Sungwon Park Jihee Kim Sangyoon Park Meeyoung Cha 23 2 0 12 Jun 2024
Interpreting the Second-Order Effects of Neurons in CLIP Yossi Gandelsman Alexei A. Efros Jacob Steinhardt MILM 48 16 0 06 Jun 2024
X-VILA: Cross-Modality Alignment for Large Language Model Hanrong Ye De-An Huang Yao Lu Zhiding Yu Wei Ping ... Jan Kautz Song Han Dan Xu Pavlo Molchanov Hongxu Yin MLLM VLM 40 29 0 29 May 2024
Zero Shot Context-Based Object Segmentation using SLIP (SAM+CLIP) Saaketh Koundinya Gundavarapu Arushi Arora Shreya Agarwal VLM 16 2 0 12 May 2024
DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing Minghao Chen Iro Laina Andrea Vedaldi 3DGS 40 23 0 29 Apr 2024
Gen3DSR: Generalizable 3D Scene Reconstruction via Divide and Conquer from a Single View Andreea Dogaru M. Ozer Bernhard Egger 3DGS 59 4 0 04 Apr 2024
Training-Free Semantic Segmentation via LLM-Supervision Wenfang Sun Yingjun Du Gaowen Liu Ramana Rao Kompella Cees G. M. Snoek VLM 35 2 0 31 Mar 2024
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models Barbara Toniella Corradini Mustafa Shukor Paul Couairon Guillaume Couairon Franco Scarselli Matthieu Cord DiffM VLM 38 4 0 29 Mar 2024
CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification Yiming Ma Victor Sanchez T. Guha 38 3 0 14 Mar 2024
Diffusion Model-Based Image Editing: A Survey Yi Huang Jiancheng Huang Yifan Liu Mingfu Yan Jiaxi Lv Jianzhuang Liu Wei Xiong He Zhang Liangliang Cao Liangliang Cao EGVM 66 84 0 27 Feb 2024
Verifiably Following Complex Robot Instructions with Foundation Models Benedict Quartey Eric Rosen Stefanie Tellex G. Konidaris LM&Ro 39 10 0 18 Feb 2024
Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning Yuhang Liu Zhen Zhang Dong Gong Biwei Huang Mingming Gong A. Hengel Kun Zhang Javen Qinfeng Shi J. Shi 41 7 0 09 Feb 2024
Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation Ci-Siang Lin Chien-Yi Wang Yu-Chiang Frank Wang Min-Hung Chen VLM 21 0 0 22 Jan 2024
3VL: Using Trees to Improve Vision-Language Models' Interpretability Nir Yellinek Leonid Karlinsky Raja Giryes CoGe VLM 49 4 0 28 Dec 2023
Tell Me What You See: Text-Guided Real-World Image Denoising E. Yosef Raja Giryes DiffM 48 2 0 15 Dec 2023
A Survey on Multimodal Large Language Models for Autonomous Driving Can Cui Yunsheng Ma Xu Cao Wenqian Ye Yang Zhou ... Xinrui Yan Shuqi Mei Jianguo Cao Ziran Wang Chao Zheng 36 249 0 21 Nov 2023
SAIR: Learning Semantic-aware Implicit Representation Canyu Zhang Xiaoguang Li Qing-Wu Guo Song Wang 23 3 0 13 Oct 2023
Animating Street View Mengyi Shan Brian L. Curless Ira Kemelmacher-Shlizerman Steven M. Seitz 33 2 0 12 Oct 2023
Cross-modal Cognitive Consensus guided Audio-Visual Segmentation Zhaofeng Shi Qingbo Wu Fanman Meng Linfeng Xu Hongliang Li VOS 25 3 0 10 Oct 2023
TextPSG: Panoptic Scene Graph Generation from Textual Descriptions Chengyang Zhao Yikang Shen Zhenfang Chen Mingyu Ding Chuang Gan 40 15 0 10 Oct 2023
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning Yuanyi Zhong Alihusein Kuwajerwala Sacha Morin Krishna Murthy Jatavallabhula Bipasha Sen ... Celso Miguel de Melo Joshua B. Tenenbaum Antonio Torralba Florian Shkurti Liam Paull LM&Ro 27 166 0 28 Sep 2023
Blending-NeRF: Text-Driven Localized Editing in Neural Radiance Fields H. Song Seokhun Choi Hoseok Do Chul Lee Taehyeong Kim DiffM 24 24 0 23 Aug 2023
Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models K. Poudel Manish Dhakal Prasiddha Bhandari Rabin Adhikari Safal Thapaliya Bishesh Khanal VLM 28 17 0 15 Aug 2023
Foundational Models Defining a New Era in Vision: A Survey and Outlook Muhammad Awais Muzammal Naseer Salman Khan Rao Muhammad Anwer Hisham Cholakkal M. Shah Ming Yang F. Khan VLM 18 117 0 25 Jul 2023