v1v2v3 (latest)

Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

AAAI Conference on Artificial Intelligence (AAAI), 2020

6 March 2020

ArXiv (abs)PDF HTML Github (7★)

Papers citing "Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning"

50 / 78 papers shown

Backdooring Self-Supervised Contrastive Learning by Noisy Alignment

171

19 Aug 2025

TC-MGC: Text-Conditioned Multi-Grained Contrastive Learning for Text-Video RetrievalInformation Fusion (Inf. Fusion), 2025

Xiaolun Jing

Genke Yang

Jian Chu

258

07 Apr 2025

OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities

Hanane Azzag

M. Lebbah

ObjD

383

17 Sep 2024

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

504

26 Jul 2024

Stock Movement Prediction with Multimodal Stable Fusion via Gated Cross-Attention Mechanism

Chang Zong

Jian Shao

Weiming Lu

Yueting Zhuang

300

06 Jun 2024

Unified Video-Language Pre-training with Synchronized Audio

Shentong Mo

Haofan Wang

Huaxia Li

Xu Tang

301

12 May 2024

VideoDistill: Language-aware Vision Distillation for Video Question Answering

Yu Qiao

272

01 Apr 2024

REPAIR: Rank Correlation and Noisy Pair Half-replacing with Memory for Noisy CorrespondenceIEEE transactions on multimedia (IEEE TMM), 2024

201

13 Mar 2024

SNP-S3: Shared Network Pre-training and Significant Semantic Strengthening for Various Video-Text Tasks

258

31 Jan 2024

ViLA: Efficient Video-Language Alignment for Video Question AnsweringEuropean Conference on Computer Vision (ECCV), 2023

381

13 Dec 2023

E-ViLM: Efficient Video-Language Model via Masked Video Modeling with Semantic Vector-Quantized Tokenizer

448

28 Nov 2023

Harvest Video Foundation Models via Efficient Post-Pretraining

Yu Qiao

Ping Luo

CLIP VLM VGen

403

30 Oct 2023

Prompt Me Up: Unleashing the Power of Alignments for Multimodal Entity and Relation ExtractionACM Multimedia (ACM MM), 2023

Xuming Hu

Junzhe Chen

Aiwei Liu

Shiao Meng

Lijie Wen

Philip S. Yu

267

25 Oct 2023

HowToCaption: Prompting LLMs to Transform Video Annotations at ScaleEuropean Conference on Computer Vision (ECCV), 2023

Nina Shvetsova

Anna Kukleva

Xudong Hong

Christian Rupprecht

Bernt Schiele

Hilde Kuehne

377

07 Oct 2023

Preserving Modality Structure Improves Multi-Modal LearningIEEE International Conference on Computer Vision (ICCV), 2023

287

24 Aug 2023

Provable Dynamic Fusion for Low-Quality Multimodal DataInternational Conference on Machine Learning (ICML), 2023

368

133

03 Jun 2023

Structured Video-Language Modeling with Temporal Grouping and Spatial GroundingInternational Conference on Learning Representations (ICLR), 2023

Ming-Hsuan Yang

352

28 Mar 2023

Video Question Answering Using CLIP-Guided Visual-Text AttentionInternational Conference on Information Photonics (ICIP), 2023

268

06 Mar 2023

Contrastive Video Question Answering via Video Graph TransformerIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Angela Yao

326

27 Feb 2023

Deep Learning for Video-Text Retrieval: a ReviewInternational Journal of Multimedia Information Retrieval (IJMIR), 2023

257

24 Feb 2023

STOA-VLP: Spatial-Temporal Modeling of Object and Action for Video-Language Pre-trainingAAAI Conference on Artificial Intelligence (AAAI), 2023

467

20 Feb 2023

Efficient End-to-End Video Question Answering with Pyramidal Multimodal TransformerAAAI Conference on Artificial Intelligence (AAAI), 2023

374

04 Feb 2023

Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text RetrievalAAAI Conference on Artificial Intelligence (AAAI), 2023

Ying Shan

300

30 Jan 2023

Temporal Perceiving Video-Language Pre-training

Heng Wang

Yi Yang

238

18 Jan 2023

Learning Trajectory-Word Alignments for Video-Language TasksIEEE International Conference on Computer Vision (ICCV), 2023

Fei Huang

270

05 Jan 2023

Integrating Multimodal Data for Joint Generative Modeling of Complex DynamicsInternational Conference on Machine Learning (ICML), 2022

571

15 Dec 2022

Curriculum Learning Meets Weakly Supervised Modality Correlation LearningConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Sijie Mai

Ya Sun

Haifeng Hu

227

15 Dec 2022

NLIP: Noise-robust Language-Image Pre-trainingAAAI Conference on Artificial Intelligence (AAAI), 2022

Runhu Huang

Yanxin Long

Jianhua Han

Hang Xu

Xiwen Liang

Chunjing Xu

Xiaodan Liang

VLM

341

14 Dec 2022

SimVTP: Simple Video Text Pre-training with Masked Autoencoders

Yue Ma

Tianyu Yang

Yin Shan

Xiu Li

209

07 Dec 2022

Normalized Contrastive Learning for Text-Video RetrievalConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

206

30 Nov 2022

LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal ModelingConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Dongsheng Chen

Chaofan Tao

Lu Hou

Lifeng Shang

Xin Jiang

Qun Liu

VLM

301

21 Oct 2022

RaP: Redundancy-aware Video-language Pre-training for Text-Video RetrievalConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

185

13 Oct 2022

Learning Transferable Spatiotemporal Representations from Natural Script KnowledgeComputer Vision and Pattern Recognition (CVPR), 2022

Ping Luo

268

30 Sep 2022

Text-Adaptive Multiple Visual Prototype Matching for Video-Text RetrievalNeural Information Processing Systems (NeurIPS), 2022

Chunhua Shen

293

27 Sep 2022

LGDN: Language-Guided Denoising Network for Video-Language ModelingNeural Information Processing Systems (NeurIPS), 2022

Mingyu Ding

402

23 Sep 2022

MuMUR : Multilingual Multimodal Universal Retrieval

Avinash Madasu

Estelle Aflalo

Gabriela Ben-Melech Stan

Shachar Rosenman

Shao-Yen Tseng

Gedas Bertasius

Vasudev Lal

531

24 Aug 2022

LocVTP: Video-Text Pre-training for Temporal LocalizationEuropean Conference on Computer Vision (ECCV), 2022

228

21 Jul 2022

X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text RetrievalACM Multimedia (ACM MM), 2022

Ji Zhang

311

436

15 Jul 2022

Video Graph Transformer for Video Question AnsweringEuropean Conference on Computer Vision (ECCV), 2022

535

104

12 Jul 2022

LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval

241

11 Jul 2022

Self-Supervised Learning for Videos: A SurveyACM Computing Surveys (ACM CSUR), 2022

Madeline Chantry Schiappa

Yogesh S Rawat

M. Shah

SSL

615

178

18 Jun 2022

MineDojo: Building Open-Ended Embodied Agents with Internet-Scale KnowledgeNeural Information Processing Systems (NeurIPS), 2022

Linxi Fan

De-An Huang

775

534

17 Jun 2022

Zero-Shot Video Question Answering via Frozen Bidirectional Language ModelsNeural Information Processing Systems (NeurIPS), 2022

567

285

16 Jun 2022

Beyond Just Vision: A Review on Self-Supervised Representation Learning on Multimodal and Temporal Data

294

06 Jun 2022

Learning to Answer Visual Questions from Web VideosIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

431

10 May 2022

MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text RetrievalEuropean Conference on Computer Vision (ECCV), 2022

Ying Shan

Ping Luo

190

26 Apr 2022

COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal RetrievalComputer Vision and Pattern Recognition (CVPR), 2022

284

15 Apr 2022

Tencent Text-Video Retrieval: Hierarchical Cross-Modal Interactions with Multi-Level RepresentationsIEEE Access (IEEE Access), 2022

Shaobo Min

Hongfa Wang

Wei Liu

443

07 Apr 2022

ECLIPSE: Efficient Long-range Video Retrieval using Sight and SoundEuropean Conference on Computer Vision (ECCV), 2022

Yan-Bo Lin

Jie Lei

Joey Tianyi Zhou

Gedas Bertasius

441

06 Apr 2022

Learning Audio-Video Modalities from Image CaptionsEuropean Conference on Computer Vision (ECCV), 2022

245

01 Apr 2022