Towards Open-Ended Visual Recognition with Large Language Model

Towards Open-Ended Visual Recognition with Large Language Model

14 November 2023

Liang-Chieh Chen

ArXiv (abs)PDF HTML Github (95★)

Papers citing "Towards Open-Ended Visual Recognition with Large Language Model"

9 / 9 papers shown

Title
Any3DIS: Class-Agnostic 3D Instance Segmentation by 2D Mask TrackingComputer Vision and Pattern Recognition (CVPR), 2024 P. Nguyen Minh Luu Anh Tran Cuong Pham K. Nguyen 3DPC 233 5 0 25 Nov 2024
OE3DIS: Open-Ended 3D Point Cloud Instance Segmentation P. Nguyen Minh Luu Anh Tran Cuong Pham Khoi Duc Minh Nguyen 3DPC 262 1 0 21 Aug 2024
SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation Pengfei Chen Lingxi Xie Xinyue Huo Xuehui Yu Xiaopeng Zhang Yingfei Sun Zhenjun Han Qi Tian VLM 460 5 0 23 Jul 2024
OpenPSG: Open-set Panoptic Scene Graph Generation via Large Multimodal Models Zijian Zhou Zheng Zhu Holger Caesar Miaojing Shi VLM 182 11 0 15 Jul 2024
An Image is Worth 32 Tokens for Reconstruction and Generation Qihang Yu Mark Weber XueQing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen VLM ViT 347 182 0 11 Jun 2024
Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting Inkyu Shin Qihang Yu Xiaohui Shen In So Kweon KuK-Jin Yoon Liang-Chieh Chen VGen DiffM 320 2 0 04 Jun 2024
COCONut: Modernizing COCO Segmentation XueQing Deng Qihang Yu Peng Wang Xiaohui Shen Liang-Chieh Chen 182 20 0 12 Apr 2024
ViTamin: Designing Scalable Vision Models in the Vision-Language EraComputer Vision and Pattern Recognition (CVPR), 2024 Jienneg Chen Qihang Yu Xiaohui Shen Yaoyao Liu Liang-Chieh Chen 3DV VLM 385 48 0 02 Apr 2024
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest Shilong Zhang Pei Sun Shoufa Chen Min Xiao Wenqi Shao Wenwei Zhang Yu Liu Kai-xiang Chen Ping Luo MLLM VLM 805 312 0 07 Jul 2023