v1v2v3v4 (latest)

M6: A Chinese Multimodal Pretrainer

1 March 2021

Rui Men

Yichang Zhang

Peng Wang

Jianwei Zhang

Jianxin Ma

Yong Li

Jingren Zhou

Hongxia Yang

ArXiv (abs)PDF HTML Github

Papers citing "M6: A Chinese Multimodal Pretrainer"

50 / 92 papers shown

FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model

340

13 Oct 2025

Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting

Yuyang Liu

Qiuhe Hong

Linlan Huang

Alexandra Gomez-Villa

259

06 Aug 2025

Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval

198

22 May 2025

LSH-MoE: Communication-efficient MoE Training via Locality-Sensitive HashingNeural Information Processing Systems (NeurIPS), 2024

252

13 Nov 2024

Autoregressive Models in Vision: A Survey

...

564

08 Nov 2024

TG-LMM: Enhancing Medical Image Segmentation Accuracy through Text-Guided Large Multi-Modal Model

359

05 Sep 2024

LARR: Large Language Model Aided Real-time Scene Recommendation with Semantic UnderstandingACM Conference on Recommender Systems (RecSys), 2024

249

21 Aug 2024

SWIFT:A Scalable lightWeight Infrastructure for Fine-TuningAAAI Conference on Artificial Intelligence (AAAI), 2024

...

598

262

10 Aug 2024

Astra: Efficient Transformer Architecture and Contrastive Dynamics Learning for Embodied Instruction Following

Irwin King

289

02 Aug 2024

Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2

Chun Xu

En-Wei Sun

199

19 Jul 2024

CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation

Yuxuan Wang

Yijun Liu

Fei Yu

189

01 Jul 2024

OmniControlNet: Dual-stage Integration for Conditional Image Generation

Zeyuan Chen

Zhuowen Tu

391

09 Jun 2024

Image Captioning via Dynamic Path Customization

Jiayi Ji

Yongjian Wu

312

01 Jun 2024

HetHub: A Heterogeneous distributed hybrid training system for large-scale models

Shengen Yan

...

104

25 May 2024

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Chengqi Deng

R. X. Xu

...

Zhifang Sui

483

776

11 Jan 2024

CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image Personalization

Ruoyu Zhao

Mingrui Zhu

Shiyin Dong

Nannan Wang

Xinbo Gao

DiffM

330

24 Nov 2023

LightLM: A Lightweight Deep and Narrow Language Model for Generative Recommendation

Kai Mei

Zelong Li

VLM

518

26 Oct 2023

Accelerating Large Batch Training via Gradient Signal to Noise Ratio (GSNR)

254

24 Sep 2023

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

Jinze Bai

Shuai Bai

Shusheng Yang

Shijie Wang

Sinan Tan

Peng Wang

Junyang Lin

Chang Zhou

Jingren Zhou

MLLM VLM ObjD

778

1,891

24 Aug 2023

Differentiable Retrieval Augmentation via Generative Language Modeling for E-commerce Query Intent ClassificationInternational Conference on Information and Knowledge Management (CIKM), 2023

361

18 Aug 2023

DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination CapabilityIEEE International Conference on Computer Vision (ICCV), 2023

Runhu Huang

Jianhua Han

Guansong Lu

Xiaodan Liang

Yihan Zeng

Wei Zhang

Hang Xu

DiffM

216

18 Aug 2023

Exploring Data Redundancy in Real-world Image Classification through Data Selection

Zhenyu Tang

Shaoting Zhang

Xiaosong Wang

198

25 Jun 2023

M3PT: A Multi-Modal Model for POI TaggingKnowledge Discovery and Data Mining (KDD), 2023

228

16 Jun 2023

UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning

Xiaodan Liang

171

01 Jun 2023

Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion ModelsNeural Information Processing Systems (NeurIPS), 2023

Jianmin Bao

Lu Yuan

493

435

25 May 2023

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

Peng Wang

Shijie Wang

Junyang Lin

Shuai Bai

Xiaohuan Zhou

Jingren Zhou

Xinggang Wang

Chang Zhou

VLM MLLM ObjD

695

159

18 May 2023

OSDP: Optimal Sharded Data Parallel for Distributed Deep LearningInternational Joint Conference on Artificial Intelligence (IJCAI), 2022

Youhe Jiang

Fangcheng Fu

Xupeng Miao

Xiaonan Nie

Tengjiao Wang

335

17 May 2023

ArtGPT-4: Towards Artistic-understanding Large Vision-Language Models with Enhanced Adapter

Kun Wang

484

12 May 2023

Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction

288

170

10 May 2023

A Multi-Modal Context Reasoning Approach for Conditional Inference on Joint Textual and Visual CluesAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Yunxin Li

Baotian Hu

Xinyu Chen

Yuxin Ding

Lin Ma

Min Zhang

LRM

223

08 May 2023

FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via Dynamic Device Placement

Xiaonan Nie

269

08 Apr 2023

OCCL: a Deadlock-free Library for GPU Collective Communication

175

11 Mar 2023

Ada-Grouper: Accelerating Pipeline Parallelism in Preempted Network by Adaptive Group-Scheduling for Micro-Batches

154

03 Mar 2023

Entity-Level Text-Guided Image Manipulation

Hang Xu

Wei Zhang

163

22 Feb 2023

Large-scale Multi-Modal Pre-trained Models: A Comprehensive SurveyMachine Intelligence Research (MIR), 2023

Yaowei Wang

Yonghong Tian

Wen Gao

AI4CE VLM

640

292

20 Feb 2023

Auto-Parallelizing Large Models with Rhino: A Systematic Approach on Production AI Platform

Ziji Shi

Zhen Zheng

Chuan Wu

W. Lin

AI4CE

212

16 Feb 2023

Towards energy-efficient Deep Learning: An overview of energy-efficient approaches along the Deep Learning Lifecycle

286

05 Feb 2023

GALIP: Generative Adversarial CLIPs for Text-to-Image SynthesisComputer Vision and Pattern Recognition (CVPR), 2023

290

148

30 Jan 2023

BagFormer: Better Cross-Modal Retrieval via bag-wise interaction

245

29 Dec 2022

Transferring General Multimodal Pretrained Models to Text RecognitionAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

Junyang Lin

Xuancheng Ren

Yichang Zhang

Gao Liu

Peng Wang

An Yang

Chang Zhou

243

19 Dec 2022

MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech RecognitionInterspeech (Interspeech), 2022

Xiaohuan Zhou

Jiaming Wang

Zeyu Cui

Shiliang Zhang

Zhijie Yan

Jingren Zhou

Chang Zhou

289

29 Nov 2022

You Need Multiple Exiting: Dynamic Early Exiting for Accelerating Unified Vision Language ModelComputer Vision and Pattern Recognition (CVPR), 2022

Yaqing Wang

Caiwen Ding

Dongkuan Xu

266

21 Nov 2022

Extreme Generative Image Compression by Learning Text Embedding from Diffusion Models

290

14 Nov 2022

Arbitrary Style Guidance for Enhanced Diffusion-Based Text-to-Image GenerationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

267

14 Nov 2022

Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object DetectionIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2022

Jianhua Han

Xiaodan Liang

313

02 Nov 2022

Masked Vision-Language Transformer in FashionMachine Intelligence Research (MIR), 2022

Luc Van Gool

286

27 Oct 2022

Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-trainingConference of the European Chapter of the Association for Computational Linguistics (EACL), 2022

368

14 Oct 2022

Progressive Text-to-Image Generation

Zhengcong Fei

Mingyuan Fan

Li Zhu

Junshi Huang

407

05 Oct 2022

Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language EmbeddingEuropean Conference on Computer Vision (ECCV), 2022

Quan Liu

Youpeng Wen

Jianhua Han

Chunjing Xu

Hang Xu

Xiaodan Liang

VLM

320

18 Jul 2022

Knowledge Distillation of Transformer-based Language Models Revisited

Chengqiang Lu

Jianwei Zhang

Yunfei Chu

Jingren Zhou

Hongxia Yang

367

29 Jun 2022