v1v2 (latest)

CLIP-Event: Connecting Text and Images with Event Structures

Computer Vision and Pattern Recognition (CVPR), 2022

13 January 2022

Heng Ji

ArXiv (abs)PDF HTML Github (107★)

Papers citing "CLIP-Event: Connecting Text and Images with Event Structures"

50 / 73 papers shown

Revisiting Theory of Contrastive Learning for Domain Generalization

Ali Alvandi

Mina Rezaei

OOD SSL

268

02 Dec 2025

InfMasking: Unleashing Synergistic Information by Contrastive Multimodal Interactions

327

28 Sep 2025

PRISM: Phase-enhanced Radial-based Image Signature Mapping framework for fingerprinting AI-generated images

186

18 Sep 2025

Benchmarking and Improving LVLMs on Event Extraction from Multimedia Documents

126

16 Sep 2025

The Demon is in Ambiguity: Revisiting Situation Recognition with Single Positive Multi-Label Learning

169

29 Aug 2025

Logic Unseen: Revealing the Logical Blindspots of Vision-Language Models

178

15 Aug 2025

Towards Robust Evaluation of Visual Activity Recognition: Resolving Verb Ambiguity with Sense Clustering

Louie Hong Yao

Nicholas Jarvis

Tianyu Jiang

165

07 Aug 2025

Merging Smarter, Generalizing Better: Enhancing Model Merging on OOD Data

333

10 Jun 2025

BiMa: Towards Biases Mitigation for Text-Video Retrieval via Scene Element Guidance

530

04 Jun 2025

VidEvent: A Large Dataset for Understanding Dynamic Evolution of Events in VideosAAAI Conference on Artificial Intelligence (AAAI), 2025

304

03 Jun 2025

Dual-Schedule Inversion: Training- and Tuning-Free Inversion for Real Image EditingIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

386

15 Dec 2024

Scalable Early Childhood Reading Performance PredictionNeural Information Processing Systems (NeurIPS), 2024

393

05 Dec 2024

Finding NeMo: Negative-mined Mosaic Augmentation for Referring Image SegmentationEuropean Conference on Computer Vision (ECCV), 2024

294

03 Nov 2024

Identifying Implicit Social Biases in Vision-Language ModelsAAAI/ACM Conference on AI, Ethics, and Society (AIES), 2024

334

01 Nov 2024

ARMADA: Attribute-Based Multimodal Data Augmentation

Te-Lin Wu

Nanyun Peng

Heng Ji

257

19 Aug 2024

DIVE: Towards Descriptive and Diverse Visual Commonsense GenerationConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

SangKeun Lee

224

15 Aug 2024

Order-Preserving Dimension Reduction for Multimodal Semantic Embedding

246

15 Aug 2024

MM-Forecast: A Multimodal Approach to Temporal Event Forecasting with Large Language ModelsACM Multimedia (MM), 2024

Yang Yang

271

08 Aug 2024

Effectively Leveraging CLIP for Generating Situational Summaries of Images and VideosInternational Journal of Computer Vision (IJCV), 2024

Dhruv Verma

Debaditya Roy

Basura Fernando

324

30 Jul 2024

MMUTF: Multimodal Multimedia Event Argument Extraction with Unified Template Filling

Philipp Seeberger

Dominik Wagner

Korbinian Riedhammer

337

18 Jun 2024

GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling

268

07 Apr 2024

Cross-Modal Conditioned Reconstruction for Language-guided Medical Image SegmentationIEEE Transactions on Medical Imaging (IEEE TMI), 2024

324

03 Apr 2024

Knowledge-Enhanced Dual-stream Zero-shot Composed Image RetrievalComputer Vision and Pattern Recognition (CVPR), 2024

Yuchen Suo

Fan Ma

Linchao Zhu

Yi Yang

265

24 Mar 2024

Approximated Likelihood Ratio: A Forward-Only and Parallel Framework for Boosting Neural Network Training

165

18 Mar 2024

Text-Guided Variational Image Generation for Industrial Anomaly Detection and SegmentationComputer Vision and Pattern Recognition (CVPR), 2024

Mingyu Lee

Jongwon Choi

437

10 Mar 2024

UMIE: Unified Multimodal Information Extraction with Instruction Tuning

330

05 Jan 2024

Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart CaptioningAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

414

15 Dec 2023

Learning Generalizable Perceptual Representations for Data-Efficient No-Reference Image Quality AssessmentIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

271

08 Dec 2023

Localized Symbolic Knowledge Distillation for Visual Commonsense ModelsNeural Information Processing Systems (NeurIPS), 2023

...

Yejin Choi

328

08 Dec 2023

Prompt Tuning for Zero-shot Compositional Learning

316

02 Dec 2023

Stochastic Vision Transformers with Wasserstein Distance-Aware Attention

Franciskus Xaverius Erick

Mina Rezaei

Johanna P. Müller

Bernhard Kainz

250

30 Nov 2023

ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided Code-Vision RepresentationConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Heng Ji

279

22 Nov 2023

SPOT! Revisiting Video-Language Models for Event Understanding

Jindong Gu

498

21 Nov 2023

TextEE: Benchmark, Reevaluation, Reflections, and Future Challenges in Event Extraction

Heng Ji

547

16 Nov 2023

Towards a Unified Transformer-based Framework for Scene Graph Generation and Human-object Interaction DetectionIEEE Transactions on Image Processing (IEEE TIP), 2023

Tao He

Lianli Gao

Jingkuan Song

Yuan-Fang Li

ViT

283

03 Nov 2023

Defining a New NLP PlaygroundConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

...

Heng Ji

434

31 Oct 2023

Envisioning Narrative Intelligence: A Creative Visual Storytelling AnthologyInternational Conference on Human Factors in Computing Systems (CHI), 2023

Brett A. Halperin

S. Lukin

CoGe

256

06 Oct 2023

Multimodal Question Answering for Unified Information Extraction

Yuxuan Sun

Kai Zhang

Yu-Chuan Su

216

04 Oct 2023

Seal2Real: Prompt Prior Learning on Diffusion Model for Unsupervised Document Seal Data Generation and Realisation

355

01 Oct 2023

FEC: Three Finetuning-free Methods to Enhance Consistency for Real Image Editing

Songyan Chen

Jiancheng Huang

DiffM

187

26 Sep 2023

Diversified Ensemble of Independent Sub-Networks for Robust Self-Supervised Representation Learning

Eyke Hüllermeier

335

28 Aug 2023

Composed Image Retrieval using Contrastive Learning and Task-oriented CLIP-based Features

179

22 Aug 2023

ClipSitu: Effectively Leveraging CLIP for Conditional Predictions in Situation Recognition

568

02 Jul 2023

Training Multimedia Event Extraction With Generated Images and CaptionsACM Multimedia (ACM MM), 2023

413

15 Jun 2023

Z-GMOT: Zero-shot Generic Multiple Object Tracking

Kim Hoang Tran

Ngan Hoang Le

389

28 May 2023

Few-shot Domain-Adaptive Visually-fused Event Detection from TextFusion (Fusion), 2023

Van Nguyen

255

04 May 2023

VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias

Stefanos-Iordanis Papadopoulos

C. Koutlis

Symeon Papadopoulos

P. Petrantonakis

727

27 Apr 2023

Verbs in Action: Improving verb understanding in video-language modelsIEEE International Conference on Computer Vision (ICCV), 2023

547

13 Apr 2023

Subject-driven Text-to-Image Generation via Apprenticeship LearningNeural Information Processing Systems (NeurIPS), 2023

1.2K

242

01 Apr 2023

Seeing What You Said: Talking Face Generation Guided by a Lip Reading ExpertComputer Vision and Pattern Recognition (CVPR), 2023

Jiadong Wang

Xinyuan Qian

Malu Zhang

R. Tan

Haizhou Li

EGVM

261

151

29 Mar 2023