v1v2v3v4 (latest)

Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models

19 May 2015

Bryan A. Plummer

Liwei Wang

Christopher M. Cervantes

Papers citing "Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models"

50 / 1,325 papers shown

Box-based Refinement for Weakly Supervised and Unsupervised Localization TasksIEEE International Conference on Computer Vision (ICCV), 2023

Eyal Gomel

Tal Shaharabany

Lior Wolf

ObjD

351

07 Sep 2023

DetermiNet: A Large-Scale Diagnostic Dataset for Complex Visually-Grounded Referencing using DeterminersIEEE International Conference on Computer Vision (ICCV), 2023

Clarence Lee

M Ganesh Kumar

Cheston Tan

198

07 Sep 2023

A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models

Noriyuki Kojima

Hadar Averbuch-Elor

Yoav Artzi

325

06 Sep 2023

S3C: Semi-Supervised VQA Natural Language Explanation via Self-Critical LearningComputer Vision and Pattern Recognition (CVPR), 2023

Qi Wu

204

05 Sep 2023

MultiWay-Adapater: Adapting large-scale multi-modal models for scalable image-text retrievalIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Zijun Long

George Killick

R. McCreadie

Gerardo Aragon Camarasa

247

04 Sep 2023

Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-trained ModelsNeural Information Processing Systems (NeurIPS), 2023

Qiong Wu

261

04 Sep 2023

Contrastive Feature Masking Open-Vocabulary Vision TransformerIEEE International Conference on Computer Vision (ICCV), 2023

339

02 Sep 2023

ViLTA: Enhancing Vision-Language Pre-training through Textual AugmentationIEEE International Conference on Computer Vision (ICCV), 2023

Weihan Wang

Zhiyong Yang

Bin Xu

Juanzi Li

Yankui Sun

VLM

289

31 Aug 2023

Catalog Phrase Grounding (CPG): Grounding of Product Textual Attributes in Product Images for e-commerce Vision-Language Applications

Wenyi Wu

Karim Bouyarmane

Ismail B. Tutar

30 Aug 2023

CoVR: Learning Composed Video Retrieval from Web Video CaptionsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

438

28 Aug 2023

How to Evaluate the Generalization of Detection? A Benchmark for Comprehensive Open-Vocabulary DetectionAAAI Conference on Artificial Intelligence (AAAI), 2023

201

25 Aug 2023

DLIP: Distilling Language-Image Pre-training

Min Zheng

150

24 Aug 2023

SCoRD: Subject-Conditional Relation Detection with Text-Augmented DataIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

258

24 Aug 2023

Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language NavigationIEEE International Conference on Computer Vision (ICCV), 2023

224

24 Aug 2023

InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4

Lichao Sun

325

23 Aug 2023

CgT-GAN: CLIP-guided Text GAN for Image CaptioningACM Multimedia (ACM MM), 2023

229

23 Aug 2023

RefEgo: Referring Expression Comprehension Dataset from First-Person Perception of Ego4DIEEE International Conference on Computer Vision (ICCV), 2023

262

23 Aug 2023

EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoEAAAI Conference on Artificial Intelligence (AAAI), 2023

205

23 Aug 2023

GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-trainingIEEE International Conference on Computer Vision (ICCV), 2023

Hang Xu

Jianhua Han

James T. Kwok

Shen Zhao

Wei Zhang

Xiaodan Liang

CLIP VLM

211

22 Aug 2023

ConcatPlexer: Additional Dim1 Batching for Faster ViTs

Nojun Kwak

193

22 Aug 2023

VQA Therapy: Exploring Answer Differences by Visually Grounding AnswersIEEE International Conference on Computer Vision (ICCV), 2023

Chongyan Chen

Samreen Anjum

Danna Gurari

247

21 Aug 2023

On the Adversarial Robustness of Multi-Modal Foundation Models

Christian Schlarmann

Matthias Hein

AAML

378

139

21 Aug 2023

AltDiffusion: A Multilingual Text-to-Image Diffusion ModelAAAI Conference on Artificial Intelligence (AAAI), 2023

309

19 Aug 2023

Tackling Vision Language Tasks Through Learning Inner MonologuesAAAI Conference on Artificial Intelligence (AAAI), 2023

Jie Yang

234

19 Aug 2023

Artificial-Spiking Hierarchical Networks for Vision-Language Representation Learning

213

18 Aug 2023

DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination CapabilityIEEE International Conference on Computer Vision (ICCV), 2023

Runhu Huang

Jianhua Han

Guansong Lu

Xiaodan Liang

Yihan Zeng

Wei Zhang

Hang Xu

DiffM

171

18 Aug 2023

Language-Guided Diffusion Model for Visual Grounding

Sijia Chen

Baochun Li

655

18 Aug 2023

ALIP: Adaptive Language-Image Pre-training with Synthetic CaptionIEEE International Conference on Computer Vision (ICCV), 2023

Xiang An

224

16 Aug 2023

Exploring Transfer Learning in Medical Image Segmentation using Vision-Language ModelsInternational Conference on Medical Imaging with Deep Learning (MIDL), 2023

564

15 Aug 2023

Vision-Language Dataset Distillation

456

15 Aug 2023

Taming Self-Training for Open-Vocabulary Object DetectionComputer Vision and Pattern Recognition (CVPR), 2023

375

11 Aug 2023

Foundation Model is Efficient Multimodal Multitask Model SelectorNeural Information Processing Systems (NeurIPS), 2023

Yu Qiao

Ping Luo

175

11 Aug 2023

RegionBLIP: A Unified Multi-modal Pre-training Framework for Holistic and Regional Comprehension

Fan Wang

184

03 Aug 2023

OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models

...

Pang Wei Koh

349

549

02 Aug 2023

VL-Grasp: a 6-Dof Interactive Grasp Policy for Language-Oriented Objects in Cluttered Indoor ScenesIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2023

269

01 Aug 2023

Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence GenerationACM Multimedia Asia (MA), 2023

Zhiyuan Li

Dongnan Liu

Heng Wang

Chaoyi Zhang

Weidong (Tom) Cai

RALM

193

27 Jul 2023

Set-level Guidance Attack: Boosting Adversarial Transferability of Vision-Language Pre-training ModelsIEEE International Conference on Computer Vision (ICCV), 2023

273

121

26 Jul 2023

3DRP-Net: 3D Relative Position-aware Network for 3D Visual GroundingConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Xize Cheng

Zhou Zhao

194

25 Jul 2023

Described Object Detection: Liberating Object Detection with Flexible ExpressionsNeural Information Processing Systems (NeurIPS), 2023

243

24 Jul 2023

Iterative Robust Visual Grounding with Masked Reference based Centerpoint Supervision

Xiangtai Li

276

23 Jul 2023

Advancing Visual Grounding with Scene Knowledge: Benchmark and MethodComputer Vision and Pattern Recognition (CVPR), 2023

Xiang Wan

181

21 Jul 2023

Embedded Heterogeneous Attention Transformer for Cross-lingual Image CaptioningIEEE transactions on multimedia (IEEE TMM), 2023

Zijie Song

Zhenzhen Hu

Yuanen Zhou

Ye Zhao

Richang Hong

Meng Wang

209

19 Jul 2023

Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly Supervised 3D Visual GroundingIEEE International Conference on Computer Vision (ICCV), 2023

Xize Cheng

Zhou Zhao

194

18 Jul 2023

A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and FutureIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Chaoyang Zhu

Long Chen

ObjD VLM

511

18 Jul 2023

BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up Patch SummarizationIEEE International Conference on Computer Vision (ICCV), 2023

Fei Huang

205

17 Jul 2023

Bootstrapping Vision-Language Learning with Decoupled Language Pre-trainingNeural Information Processing Systems (NeurIPS), 2023

389

13 Jul 2023

mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs

Radu Timofte

229

13 Jul 2023

GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic ManipulationIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2023

213

12 Jul 2023

Open-Vocabulary Object Detection via Scene Graph DiscoveryACM Multimedia (ACM MM), 2023

Hengcan Shi

Munawar Hayat

Jianfei Cai

ObjD

281

07 Jul 2023

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

916

320

07 Jul 2023