v1v2 (latest)

CRIS: CLIP-Driven Referring Image Segmentation

30 November 2021

Papers citing "CRIS: CLIP-Driven Referring Image Segmentation"

50 / 288 papers shown

IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word EmphasisAAAI Conference on Artificial Intelligence (AAAI), 2025

292

02 Mar 2025

Grad-ECLIP: Gradient-based Visual and Textual Explanations for CLIP

267

26 Feb 2025

A Survey on Foundation-Model-Based Industrial Defect Detection

515

26 Feb 2025

Pixel-Level Reasoning Segmentation via Multi-turn ConversationsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

335

13 Feb 2025

SIREN: Semantic, Initialization-Free Registration of Multi-Robot Gaussian Splatting Maps

381

10 Feb 2025

Efficient Redundancy Reduction for Open-Vocabulary Semantic Segmentation

207

29 Jan 2025

Dynamic Scene Understanding from Vision-Language Representations

1.1K

20 Jan 2025

A Comprehensive Survey of Foundation Models in MedicineIEEE Reviews in Biomedical Engineering (RBME), 2024

767

17 Jan 2025

The Devil is in Temporal Token: High Quality Video Reasoning SegmentationComputer Vision and Pattern Recognition (CVPR), 2025

245

15 Jan 2025

Continual Test-Time Adaptation for Single Image Defocus Deblurring via Causal Siamese NetworksInternational Journal of Computer Vision (IJCV), 2025

292

15 Jan 2025

Multi-task Visual Grounding with Coarse-to-Fine Consistency ConstraintsAAAI Conference on Artificial Intelligence (AAAI), 2025

369

12 Jan 2025

Hierarchical Alignment-enhanced Adaptive Grounding Network for Generalized Referring Expression ComprehensionAAAI Conference on Artificial Intelligence (AAAI), 2025

261

03 Jan 2025

Towards Visual Grounding: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

964

28 Dec 2024

Cross-Modal Few-Shot Learning with Second-Order Neural Ordinary Differential EquationsAAAI Conference on Artificial Intelligence (AAAI), 2024

Carola-Bibiane Schonlieb

Yuyan Chen

Angelica I Aviles-Rivero

AI4TS

321

20 Dec 2024

InstructSeg: Unifying Instructed Visual Segmentation with Multi-modal Large Language Models

287

18 Dec 2024

Unlocking Visual Secrets: Inverting Features with Diffusion Priors for Image Reconstruction

310

11 Dec 2024

HyperSeg: Towards Universal Visual Segmentation with Large Language Model

274

26 Nov 2024

LaVin-DiT: Large Vision Diffusion TransformerComputer Vision and Pattern Recognition (CVPR), 2024

553

18 Nov 2024

Finding NeMo: Negative-mined Mosaic Augmentation for Referring Image SegmentationEuropean Conference on Computer Vision (ECCV), 2024

258

03 Nov 2024

On Occlusions in Video Action Detection: Benchmark Datasets And Training RecipesNeural Information Processing Systems (NeurIPS), 2024

Rajat Modi

Vibhav Vineet

Yogesh S Rawat

329

25 Oct 2024

CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection

Andrea Appiani

Cigdem Beyan

CLIP VLM

297

18 Oct 2024

LESS: Label-Efficient and Single-Stage Referring 3D SegmentationNeural Information Processing Systems (NeurIPS), 2024

356

17 Oct 2024

A Survey of Low-shot Vision-Language Model Adaptation via Representer Theorem

285

15 Oct 2024

Calibrated Cache Model for Few-Shot Vision-Language Model Adaptation

198

11 Oct 2024

Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation

398

11 Oct 2024

OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring ModelingNeural Information Processing Systems (NeurIPS), 2024

Fang Peng

434

10 Oct 2024

TuneVLSeg: Prompt Tuning Benchmark for Vision-Language Segmentation ModelsAsian Conference on Computer Vision (ACCV), 2024

282

07 Oct 2024

Segment as You Wish -- Free-Form Language-Based Segmentation for Medical Images

289

02 Oct 2024

One Token to Seg Them All: Language Instructed Reasoning Segmentation in VideosNeural Information Processing Systems (NeurIPS), 2024

Tong He

Joya Chen

Zheng Zhang

Mike Zheng Shou

VLM VOS MLLM

251

29 Sep 2024

Fully Aligned Network for Referring Image SegmentationVisual Communications and Image Processing (VCIP), 2024

Yong-Jin Liu

Ruihao Xu

Yansong Tang

242

29 Sep 2024

A Parameter-Efficient Tuning Framework for Language-guided Object Grounding and Robot GraspingIEEE International Conference on Robotics and Automation (ICRA), 2024

541

28 Sep 2024

PTQ4RIS: Post-Training Quantization for Referring Image SegmentationIEEE International Conference on Robotics and Automation (ICRA), 2024

Xihe Qiu

156

25 Sep 2024

DIAL: Dense Image-text ALignment for Weakly Supervised Semantic SegmentationEuropean Conference on Computer Vision (ECCV), 2024

325

24 Sep 2024

PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language InstructionsInternational Conference on Learning Representations (ICLR), 2024

Weifeng Lin

Xinyu Wei

Renrui Zhang

Le Zhuo

Shitian Zhao

...

Junlin Xie

Yu Qiao

Peng Gao

Hongsheng Li

MLLM DiffM

565

23 Sep 2024

Instruction-guided Multi-Granularity Segmentation and Captioning with Large Multimodal Model

861

20 Sep 2024

DetailCLIP: Detail-Oriented CLIP for Fine-Grained Tasks

Amin Karimi Monsefi

Kishore Prakash Sailaja

376

10 Sep 2024

SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression SegmentationEuropean Conference on Computer Vision (ECCV), 2024

Yu-Chiang Frank Wang

237

01 Sep 2024

Depth-Weighted Detection of Behaviours of Risk in People with Dementia using Cameras

245

28 Aug 2024

Perceive-IR: Learning to Perceive Degradation Better for All-in-One Image RestorationIEEE Transactions on Image Processing (TIP), 2024

552

28 Aug 2024

Image Segmentation in Foundation Model Era: A Survey

427

23 Aug 2024

Cross-aware Early Fusion with Stage-divided Vision and Language Transformer Encoders for Referring Image SegmentationIEEE transactions on multimedia (IEEE TMM), 2024

Yubin Cho

Hyunwoo Yu

Suk-Ju Kang

282

14 Aug 2024

In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic SegmentationEuropean Conference on Computer Vision (ECCV), 2024

Dahyun Kang

Minsu Cho

ObjD VLM

385

09 Aug 2024

ArtVLM: Attribute Recognition Through Vision-Based Prefix Language ModelingEuropean Conference on Computer Vision (ECCV), 2024

Feng Yang

341

07 Aug 2024

UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language ModelNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Xu Qi

Hang Song

216

05 Aug 2024

An Efficient and Effective Transformer Decoder-Based Framework for Multi-Task Visual GroundingEuropean Conference on Computer Vision (ECCV), 2024

Wei Chen

Mahdieh Hatamian

Yu Wu

238

02 Aug 2024

Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

...

367

31 Jul 2024

Diffusion Feedback Helps CLIP See BetterInternational Conference on Learning Representations (ICLR), 2024

Jing Liu

331

29 Jul 2024

RefMask3D: Language-Guided Transformer for 3D Referring Segmentation

Shuting He

Henghui Ding

256

25 Jul 2024

VISA: Reasoning Video Object Segmentation via Large Language Models

Yao Hu

237

16 Jul 2024

Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation

Seonghoon Yu

Paul Hongsuck Seo

Jeany Son

DiffM

413

10 Jul 2024