v1v2v3 (latest)

data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language

International Conference on Machine Learning (ICML), 2022

7 February 2022

Papers citing "data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language"

50 / 609 papers shown

XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception

246

21 Mar 2024

Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding

Xiaojun Chang

Meng Wang

301

21 Mar 2024

CORN: Contact-based Object Representation for Nonprehensile Manipulation of General Unseen Objects

353

16 Mar 2024

SpeechColab Leaderboard: An Open-Source Platform for Automatic Speech Recognition EvaluationComputer Speech and Language (CSL), 2024

190

13 Mar 2024

Spatiotemporal Predictive Pre-training for Robotic Motor Control

Gangshan Wu

360

08 Mar 2024

IndicVoices: Towards building an Inclusive Multilingual Speech Dataset for Indian Languages

...

Krishnan Srinivasa Raghavan Karunganni

Pratyush Kumar

Mitesh M Khapra

238

04 Mar 2024

BootTOD: Bootstrap Task-oriented Dialogue Representations by Aligning Diverse Responses

Weihao Zeng

Keqing He

Yejie Wang

Dayuan Fu

Weiran Xu

195

02 Mar 2024

Learning and Leveraging World Models in Visual Representation Learning

277

01 Mar 2024

Enhancing EEG-to-Text Decoding through Transferable Representations from Pre-trained Contrastive EEG-Text Masked Autoencoder

405

27 Feb 2024

Self-Guided Masked Autoencoders for Domain-Agnostic Self-Supervised Learning

171

22 Feb 2024

The Effect of Batch Size on Contrastive Self-Supervised Speech Representation Learning

Nik Vaessen

David A. van Leeuwen

300

21 Feb 2024

EMO-SUPERB: An In-depth Look at Speech Emotion Recognition

Haibin Wu

Jiawei Du

Chi-Chun Lee

Hung-Yi Lee

391

20 Feb 2024

Handling Ambiguity in Emotion: From Out-of-Domain Detection to Distribution Estimation

Chung-Cheng Chiu

189

20 Feb 2024

A Comprehensive Review of Machine Learning Advances on Data Change: A Cross-Field Perspective

244

20 Feb 2024

Probing Self-supervised Learning Models with Target Speech Extraction

256

17 Feb 2024

EEG2Rep: Enhancing Self-supervised EEG Representation Through Informative Masked Inputs

Navid Mohammadi Foumani

316

17 Feb 2024

Revisiting Feature Prediction for Learning Visual Representations from Video

344

173

15 Feb 2024

Advancing Human Action Recognition with Foundation Models trained on Unlabeled Public Videos

290

14 Feb 2024

MINT: Boosting Audio-Language Model via Multi-Target Pre-Training and Instruction TuningInterspeech (Interspeech), 2024

Yifei Xin

253

12 Feb 2024

SpeechCLIP+: Self-supervised multi-task representation learning for speech via CLIP and speech-image data

Hung-yi Lee

182

10 Feb 2024

REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR

Hung-yi Lee

219

06 Feb 2024

The last Dance : Robust backdoor attack via diffusion models and bayesian approach

Orson Mengara

DiffM

595

05 Feb 2024

Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning

Haoyi Zhu

Yating Wang

Di Huang

Weicai Ye

Wanli Ouyang

Tong He

SSL 3DPC

342

04 Feb 2024

TelME: Teacher-leading Multimodal Fusion Network for Emotion Recognition in ConversationNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

217

16 Jan 2024

DurFlex-EVC: Duration-Flexible Emotional Voice Conversion Leveraging Discrete Representations without Text AlignmentIEEE Transactions on Affective Computing (IEEE Trans. Affective Comput.), 2024

573

16 Jan 2024

MIMIC: Mask Image Pre-training with Mix Contrastive Fine-tuning for Facial Expression Recognition

Fan Zhang

Xiaobao Guo

Xiaojiang Peng

Alex C. Kot

124

14 Jan 2024

An EcoSage Assistant: Towards Building A Multimodal Plant Care Dialogue AssistantEuropean Conference on Information Retrieval (ECIR), 2024

110

10 Jan 2024

HiMTM: Hierarchical Multi-Scale Masked Time Series Modeling for Long-Term ForecastingInternational Conference on Information and Knowledge Management (CIKM), 2024

Ming Jin

Zengxiang Li

209

10 Jan 2024

EAT: Self-Supervised Pre-Training with Efficient Audio Transformer

Xie Chen

259

07 Jan 2024

MERBench: A Unified Evaluation Benchmark for Multimodal Emotion Recognition

Zheng Lian

Guoying Zhao

Yong Ren

Hao Gu

402

07 Jan 2024

CrisisViT: A Robust Vision Transformer for Crisis Image Classification

Zijun Long

R. McCreadie

Muhammad Imran

315

05 Jan 2024

Towards Weakly Supervised Text-to-Audio Grounding

Kai Yu

349

05 Jan 2024

Few-shot Adaptation of Multi-modal Foundation Models: A SurveyArtificial Intelligence Review (Artif Intell Rev), 2024

Fan Liu

Tianshu Zhang

Wenwen Dai

Wenwen Cai

Wenwen Cai Xiaocong Zhou

Delong Chen

VLM OffRL

301

03 Jan 2024

Skeleton2vec: A Self-supervised Learning Framework with Contextualized Target Representations for Skeleton Sequence

275

01 Jan 2024

Masked Modeling for Self-supervised Representation Learning on Vision and Beyond

Siyuan Li

Luyuan Zhang

Zedong Wang

Di Wu

Lirong Wu

...

Jun Xia

Cheng Tan

Yang Liu

Baigui Sun

Stan Z. Li

SSL

299

31 Dec 2023

Morphing Tokens Draw Strong Masked Image ModelsInternational Conference on Learning Representations (ICLR), 2023

Taekyung Kim

Byeongho Heo

Dongyoon Han

737

30 Dec 2023

Learning Vision from Models Rivals Learning Vision from DataComputer Vision and Pattern Recognition (CVPR), 2023

274

28 Dec 2023

Learning to Embed Time Series Patches Independently

314

27 Dec 2023

emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation

Xie Chen

301

235

23 Dec 2023

Bootstrap Masked Visual Modeling via Hard Patches Mining

Xiangyu Zhang

227

21 Dec 2023

Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation

Qizhe Zhang

Shanghang Zhang

245

19 Dec 2023

Efficiency-oriented approaches for self-supervised speech representation learning

Luis Lugo

Valentin Vielzeuf

SSL

250

18 Dec 2023

Towards Compact 3D Representations via Point Feature Enhancement Masked Autoencoders

232

17 Dec 2023

Audio-visual fine-tuning of audio-only ASR models

251

14 Dec 2023

4M: Massively Multimodal Masked Modeling

266

106

11 Dec 2023

Large-scale Training of Foundation Models for Wearable BiosignalsInternational Conference on Learning Representations (ICLR), 2023

244

08 Dec 2023

Emergence and Function of Abstract Representations in Self-Supervised Transformers

Quentin RV. Ferry

Joshua Ching

Takashi Kawai

234

08 Dec 2023

LiDAR: Sensing Linear Probing Performance in Joint Embedding SSL Architectures

294

07 Dec 2023

Unsupervised Video Domain Adaptation with Masked Pre-Training and Collaborative Self-TrainingComputer Vision and Pattern Recognition (CVPR), 2023

Arun V. Reddy

William Paul

Corban Rivera

Ketul Shah

Celso M. de Melo

Rama Chellappa

520

05 Dec 2023

Rejuvenating image-GPT as Strong Visual Representation LearnersInternational Conference on Machine Learning (ICML), 2023

Cihang Xie

278

04 Dec 2023