v1v2 (latest)

LVIS: A Dataset for Large Vocabulary Instance Segmentation

Computer Vision and Pattern Recognition (CVPR), 2019

8 August 2019

Piotr Dollár

Papers citing "LVIS: A Dataset for Large Vocabulary Instance Segmentation"

50 / 1,056 papers shown

Title
InstanceDiffusion: Instance-level Control for Image GenerationComputer Vision and Pattern Recognition (CVPR), 2024 Xudong Wang Trevor Darrell Sai Saketh Rambhatla Rohit Girdhar Ishan Misra VLM DiffM 259 171 0 05 Feb 2024
YOLO-World: Real-Time Open-Vocabulary Object Detection Tianheng Cheng Lin Song Yixiao Ge Wenyu Liu Xinggang Wang Ying Shan VLM ObjD 385 612 0 30 Jan 2024
Computer Vision for Primate Behavior Analysis in the Wild Richard Vogg Timo Lüddecke Jonathan Henrich Sharmita Dey Matthias Nuske ... Alexander Gail Stefan Treue H. Scherberger Florentin Wörgötter Alexander S. Ecker 388 14 0 29 Jan 2024
Enhanced Sound Event Localization and Detection in Real 360-degree audio-visual soundscapes Adrian S. Roman Baladithya Balamurugan Rithik Pothuganti 100 10 0 29 Jan 2024
Rectify the Regression Bias in Long-Tailed Object DetectionEuropean Conference on Computer Vision (ECCV), 2024 Ke Zhu Minghao Fu Jie Shao Tianyu Liu Jianxin Wu 293 3 0 29 Jan 2024
SGTR+: End-to-end Scene Graph Generation with TransformerIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023 Rongjie Li Songyang Zhang Xuming He ViT 191 6 0 23 Jan 2024
Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation Kohei Uehara Nabarun Goswami Hanqin Wang Toshiaki Baba Kohtaro Tanaka ... Takagi Naoya Ryo Umagami Yingyi Wen Tanachai Anakewat Tatsuya Harada LRM 224 3 0 18 Jan 2024
Improving fine-grained understanding in image-text pre-training Ioana Bica Anastasija Ilić Matthias Bauer Goker Erdogan Matko Bovsnjak ... A. Gritsenko Matthias Minderer Charles Blundell Razvan Pascanu Jovana Mitrović VLM 212 44 0 18 Jan 2024
Instance Brownian Bridge as Texts for Open-vocabulary Video Instance Segmentation Ze-Long Cheng Kehan Li Hao Li Peng Jin Chang Liu Xiawu Zheng Rongrong Ji Jie Chen VOS 249 4 0 18 Jan 2024
Segment Anything Model Can Not Segment Anything: Assessing AI Foundation Model's Generalizability in Permafrost MappingRemote Sensing (Remote Sens.), 2024 Wenwen Li Chia-Yu Hsu Sizhe Wang Yezhou Yang Hyunho Lee ... Brendan M. Rogers S. Arundel Matthew B. Jones Kenton McHenry Patricia Solis VLM 150 27 0 16 Jan 2024
DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent)International Conference on Machine Learning (ICML), 2024 Zongxin Yang Guikun Chen Xiaodi Li Wenguan Wang Yi Yang LM&Ro LLMAG 469 59 0 16 Jan 2024
Domain Adaptation for Large-Vocabulary Object DetectorsNeural Information Processing Systems (NeurIPS), 2024 Kai Jiang Jiaxing Huang Weiying Xie Jie Lei Yunsong Li Ling Shao Shijian Lu ObjD VLM 321 4 0 13 Jan 2024
AffordanceLLM: Grounding Affordance from Vision Language Models Shengyi Qian Weifeng Chen Min Bai Xiong Zhou Zhuowen Tu Li Erran Li 358 46 0 12 Jan 2024
Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning Yiqi Wang Wentao Chen Xiaotian Han Xudong Lin Haiteng Zhao Yongfei Liu Bohan Zhai Jianbo Yuan Quanzeng You Hongxia Yang LRM 277 144 0 10 Jan 2024
Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding Yatong Bai Utsav Garg Apaar Shanker Haoming Zhang Samyak Parajuli ... Eugenia D Fomitcheva E. Branson Aerin Kim Somayeh Sojoudi Kyunghyun Cho 167 2 0 09 Jan 2024
Uncertainty-aware Sampling for Long-tailed Semi-supervised Learning Kuo Yang Duo Li Menghan Hu Guangtao Zhai Yunbo Wang Xiao-Ping Zhang 174 0 0 09 Jan 2024
MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation Long Xu Shanghong Li Yongquan Chen Jun Luo Shiwu Lai 247 2 0 09 Jan 2024
VLLaVO: Mitigating Visual Gap through LLMs Shuhao Chen Yulong Zhang Weisen Jiang Jiangang Lu Yu Zhang VLM 353 3 0 06 Jan 2024
Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively Haobo Yuan Xiangtai Li Chong Zhou Yining Li Kai Chen Chen Change Loy VLM 253 85 0 05 Jan 2024
BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything ModelComputer Vision and Pattern Recognition (CVPR), 2024 Yiran Song Qianyu Zhou Hefei Ling Deng-Ping Fan Xuequan Lu Lizhuang Ma VLM 438 20 0 04 Jan 2024
Masked Modeling for Self-supervised Representation Learning on Vision and Beyond Siyuan Li Luyuan Zhang Zedong Wang Di Wu Lirong Wu ... Jun Xia Cheng Tan Yang Liu Baigui Sun Stan Z. Li SSL 259 27 0 31 Dec 2023
Generating Enhanced Negatives for Training Language-Based Object DetectorsComputer Vision and Pattern Recognition (CVPR), 2023 Shiyu Zhao Long Zhao Vijay Kumar B.G Yumin Suh Dimitris N. Metaxas Manmohan Chandraker S. Schulter ObjD VLM 380 13 0 29 Dec 2023
Amodal Ground Truth and Completion in the WildComputer Vision and Pattern Recognition (CVPR), 2023 Guanqi Zhan Chuanxia Zheng Weidi Xie Andrew Zisserman 235 42 0 28 Dec 2023
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action Jiasen Lu Christopher Clark Sangho Lee Zichen Zhang Savya Khosla Ryan Marten Derek Hoiem Aniruddha Kembhavi VLM MLLM 267 266 0 28 Dec 2023
Visual Instruction Tuning towards General-Purpose Multimodal Model: A Survey Jiaxing Huang Jingyi Zhang Kai Jiang Han Qiu Shijian Lu 174 30 0 27 Dec 2023
Large-scale Long-tailed Disease Diagnosis on Radiology Images Qiaoyu Zheng Weike Zhao Chaoyi Wu Xiaoman Zhang Lisong Dai Hengyu Guan Yuehua Li Ya Zhang Yanfeng Wang Weidi Xie LM&MA MedIm 570 24 0 26 Dec 2023
Debiased Learning for Remote Sensing Data Chun-Hsiao Yeh Xudong Wang Stella X. Yu Charles Hill Zackery Steck Scott Kangas Aaron A. Reite 163 0 0 24 Dec 2023
Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training Xinyan Chen Jiaxin Ge Tianjun Zhang Jiaming Liu Shanghang Zhang VLM EGVM 444 2 0 23 Dec 2023
GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection Haozhan Shen Tiancheng Zhao Mingwei Zhu Yuxiang Cai VLM ObjD 396 25 0 22 Dec 2023
Revisiting Few-Shot Object Detection with Vision-Language Models Anish Madan Neehar Peri Shu Kong Deva Ramanan VLM 349 28 0 22 Dec 2023
FM-OV3D: Foundation Model-based Cross-modal Knowledge Blending for Open-Vocabulary 3D Detection Dongmei Zhang Chang Li Ray Zhang Shenghao Xie Wei Xue Xiaodong Xie Shanghang Zhang VLM 189 21 0 22 Dec 2023
Variance-insensitive and Target-preserving Mask Refinement for Interactive Image Segmentation Chaowei Fang Ziyin Zhou Junye Chen Hanjing Su Qingyao Wu Guanbin Li 169 4 0 22 Dec 2023
TinySAM: Pushing the Envelope for Efficient Segment Anything Model Han Shu Wenshuo Li Yehui Tang Yiman Zhang Yihao Chen Houqiang Li Yunhe Wang Xinghao Chen VLM 374 35 0 21 Dec 2023
Weakly Supervised Open-Vocabulary Object Detection Jianghang Lin Chunjiang Ge Bingquan Wang Shaohui Lin Ke Li Liujuan Cao WSOD 277 15 0 19 Dec 2023
TAO-Amodal: A Benchmark for Tracking Any Object Amodally Cheng-Yen Hsieh Kaihua Chen Achal Dave Tarasha Khurana Deva Ramanan 359 3 0 19 Dec 2023
SegRefiner: Towards Model-Agnostic Segmentation Refinement with Discrete Diffusion Process H. Bai Henghui Ding Jun Hao Liew Jiajun Liu Yao-Min Zhao Yunchao Wei DiffM 183 38 0 19 Dec 2023
CLIM: Contrastive Language-Image Mosaic for Region Representation Size Wu Wenwei Zhang Lumin Xu Sheng Jin Wentao Liu Chen Change Loy ObjD VLM 174 24 0 18 Dec 2023
CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update Zhi Gao Yuntao Du Xintong Zhang Xiaojian Ma Wenjuan Han Song-Chun Zhu Qing Li LLMAG VLM 327 45 0 18 Dec 2023
Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance P. Nguyen T.D. Ngo E. Kalogerakis Chuang Gan Anh Tran Cuong Pham Khoi Duc Minh Nguyen ISeg 408 94 0 17 Dec 2023
Simple Image-level Classification Improves Open-vocabulary Object DetectionAAAI Conference on Artificial Intelligence (AAAI), 2023 Ru Fang Guansong Pang Xiaolong Bai ObjD VLM 262 20 0 16 Dec 2023
MobileSAMv2: Faster Segment Anything to Everything Chaoning Zhang Dongshen Han Sheng Zheng J. Choi Tae-Ho Kim Choong Seon Hong VLM 177 46 0 15 Dec 2023
Osprey: Pixel Understanding with Visual Instruction TuningComputer Vision and Pattern Recognition (CVPR), 2023 Yuqian Yuan Wentong Li Jian Liu Dongqi Tang Xinjie Luo Chi Qin Lei Zhang Jianke Zhu MLLM VLM 462 140 0 15 Dec 2023
General Object Foundation Model for Images and Videos at ScaleComputer Vision and Pattern Recognition (CVPR), 2023 Junfeng Wu Yi Jiang Qihao Liu Zehuan Yuan Xiang Bai Song Bai VOS VLM 304 74 0 14 Dec 2023
Tokenize Anything via PromptingEuropean Conference on Computer Vision (ECCV), 2023 Ting Pan Lulu Tang Xinlong Wang Shiguang Shan VLM 211 35 0 14 Dec 2023
Multi-Scene Generalized Trajectory Global Graph Solver with Composite Nodes for Multiple Object TrackingAAAI Conference on Artificial Intelligence (AAAI), 2023 Yanlei Gao Haojun Xu Nannan Wang Jie Li Xinbo Gao VOT 222 12 0 14 Dec 2023
SKDF: A Simple Knowledge Distillation Framework for Distilling Open-Vocabulary Knowledge to Open-world Object DetectorIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023 Shuailei Ma Yuefeng Wang Ying-yu Wei Jiaqi Fan Enming Zhang Xinyu Sun Peihao Chen ObjD 237 2 0 14 Dec 2023
SAM-guided Graph Cut for 3D Instance SegmentationEuropean Conference on Computer Vision (ECCV), 2023 Haoyu Guo He Zhu Sida Peng Yuang Wang Yujun Shen Ruizhen Hu Xiaowei Zhou 3DV 245 32 0 13 Dec 2023
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel ObjectsComputer Vision and Pattern Recognition (CVPR), 2023 Bowen Wen Wei Yang Jan Kautz Stanley T. Birchfield 344 388 0 13 Dec 2023
ProxyDet: Synthesizing Proxy Novel Classes via Classwise Mixup for Open-Vocabulary Object DetectionAAAI Conference on Artificial Intelligence (AAAI), 2023 Joonhyun Jeong Geondo Park Jayeon Yoo Hyungsik Jung Heesu Kim VLM ObjD 334 16 0 12 Dec 2023
SqueezeSAM: User friendly mobile interactive segmentation Bala Varadarajan Bilge Soran Forrest N. Iandola Xiaoyu Xiang Yunyang Xiong Lemeng Wu Chenchen Zhu Raghuraman Krishnamoorthi Vikas Chandra VLM 217 5 0 11 Dec 2023