Data Filtering Networks

29 September 2023

Alex Fang

Albin Madappally Jose

Papers citing "Data Filtering Networks"

50 / 101 papers shown

Title
Seeing Through the Mask: Rethinking Adversarial Examples for CAPTCHAs Yahya Jabary Andreas Plesner Turlan Kuzhagaliyev Roger Wattenhofer AAML 27 0 0 09 Sep 2024
CLIP-DPO: Vision-Language Models as a Source of Preference for Fixing Hallucinations in LVLMs Yassine Ouali Adrian Bulat Brais Martínez Georgios Tzimiropoulos VLM MLLM 25 18 0 19 Aug 2024
Understanding Generative AI Content with Embedding Models Max Vargas Reilly Cannon A. Engel Anand D. Sarwate Tony Chiang 42 3 0 19 Aug 2024
xGen-MM (BLIP-3): A Family of Open Large Multimodal Models Le Xue Manli Shu Anas Awadalla Jun Wang An Yan ... Zeyuan Chen Silvio Savarese Juan Carlos Niebles Caiming Xiong Ran Xu VLM 41 91 0 16 Aug 2024
Diffusion Feedback Helps CLIP See Better Wenxuan Wang Quan-Sen Sun Fan Zhang Yepeng Tang Jing Liu Xinlong Wang VLM 38 14 0 29 Jul 2024
Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget Vikash Sehwag Xianghao Kong Jingtao Li Michael Spranger Lingjuan Lyu DiffM 32 9 0 22 Jul 2024
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces Zehan Wang Ziang Zhang Hang Zhang Luping Liu Rongjie Huang Xize Cheng Hengshuang Zhao Zhou Zhao 35 9 0 16 Jul 2024
Unconstrained Open Vocabulary Image Classification: Zero-Shot Transfer from Text to Image via CLIP Inversion Philipp Allgeuer Kyra Ahrens Stefan Wermter CLIP VLM 27 3 0 15 Jul 2024
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective Zhen Qin Daoyuan Chen Wenhao Zhang Liuyi Yao Yilun Huang Bolin Ding Yaliang Li Shuiguang Deng 48 5 0 11 Jul 2024
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions Yu-Guan Hsieh Cheng-Yu Hsieh Shih-Ying Yeh Louis Béthune Hadi Pour Ansari Pavan Kumar Anasosalu Vasu Chun-Liang Li Ranjay Krishna Oncel Tuzel Marco Cuturi 58 4 0 09 Jul 2024
Improving Zero-shot Generalization of Learned Prompts via Unsupervised Knowledge Distillation Marco Mistretta Alberto Baldrati Marco Bertini Andrew D. Bagdanov VPVLM VLM 27 6 0 03 Jul 2024
FastCLIP: A Suite of Optimization Techniques to Accelerate CLIP Training with Limited Resources Xiyuan Wei Fanjiang Ye Ori Yonay Xingyu Chen Baixi Sun Dingwen Tao Tianbao Yang VLM CLIP 46 2 0 01 Jul 2024
Data curation via joint example selection further accelerates multimodal learning Talfan Evans Nikhil Parthasarathy Hamza Merzic Olivier J. Hénaff 32 12 0 25 Jun 2024
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs Shengbang Tong Ellis L Brown Penghao Wu Sanghyun Woo Manoj Middepogu ... Xichen Pan Austin Wang Rob Fergus Yann LeCun Saining Xie 3DV MLLM 37 278 0 24 Jun 2024
MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens Anas Awadalla Le Xue Oscar Lo Manli Shu Hannah Lee ... Silvio Savarese Caiming Xiong Ran Xu Yejin Choi Ludwig Schmidt 67 24 0 17 Jun 2024
What If We Recaption Billions of Web Images with LLaMA-3? Xianhang Li Haoqin Tu Mude Hui Zeyu Wang Bingchen Zhao ... Jieru Mei Qing Liu Huangjie Zheng Yuyin Zhou Cihang Xie VLM MLLM 28 35 0 12 Jun 2024
Labeled Data Selection for Category Discovery Bingchen Zhao Nico Lang Serge J. Belongie Oisin Mac Aodha 26 3 0 07 Jun 2024
Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models Zachary Ankner Cody Blakeney Kartik K. Sreenivasan Max Marion Matthew L. Leavitt Mansheej Paul 30 23 0 30 May 2024
CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning Yiping Wang Yifang Chen Wendan Yan Alex Fang Wenjing Zhou Kevin G. Jamieson S. Du 32 7 0 29 May 2024
Multilingual Diversity Improves Vision-Language Representations Thao Nguyen Matthew Wallingford Sebastin Santy Wei-Chiu Ma Sewoong Oh Ludwig Schmidt Pang Wei Koh Ranjay Krishna VLM 32 5 0 27 May 2024
No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models Angeline Pouget Lucas Beyer Emanuele Bugliarello Xiao Wang Andreas Steiner Xiao-Qi Zhai Ibrahim M. Alabdulmohsin VLM 31 7 0 22 May 2024
Efficient Multimodal Large Language Models: A Survey Yizhang Jin Jian Li Yexin Liu Tianjun Gu Kai Wu ... Xin Tan Zhenye Gan Yabiao Wang Chengjie Wang Lizhuang Ma LRM 39 45 0 17 May 2024
SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation Jonathan Roberts Kai Han N. Houlsby Samuel Albanie 40 12 0 14 May 2024
Modeling Caption Diversity in Contrastive Vision-Language Pretraining Samuel Lavoie Polina Kirichenko Mark Ibrahim Mahmoud Assran Andrew Gordon Wilson Aaron Courville Nicolas Ballas CLIP VLM 59 19 0 30 Apr 2024
HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts Wonjae Kim Sanghyuk Chun Taekyung Kim Dongyoon Han Sangdoo Yun 39 7 0 26 Apr 2024
NTIRE 2024 Quality Assessment of AI-Generated Content Challenge Xiaohong Liu Xiongkuo Min Guangtao Zhai Chunyi Li Tengchuan Kou ... Qi Yan Youran Qu Xiaohui Zeng Lele Wang Renjie Liao 48 29 0 25 Apr 2024
OpenDlign: Enhancing Open-World 3D Learning with Depth-Aligned Images Ye Mao Junpeng Jing K. Mikolajczyk VLM 32 0 0 25 Apr 2024
PCQA: A Strong Baseline for AIGC Quality Assessment Based on Prompt Condition Xi Fang Weigang Wang Xiaoxin Lv Jun Yan EGVM 23 3 0 20 Apr 2024
How to Benchmark Vision Foundation Models for Semantic Segmentation? Tommie Kerssies Daan de Geus Gijs Dubbelman VLM 27 7 0 18 Apr 2024
ViTamin: Designing Scalable Vision Models in the Vision-Language Era Jienneg Chen Qihang Yu Xiaohui Shen Alan L. Yuille Liang-Chieh Chen 3DV VLM 28 24 0 02 Apr 2024
MyVLM: Personalizing VLMs for User-Specific Queries Yuval Alaluf Elad Richardson Sergey Tulyakov Kfir Aberman Daniel Cohen-Or MLLM VLM 36 18 0 21 Mar 2024
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training Brandon McKinzie Zhe Gan J. Fauconnier Sam Dodge Bowen Zhang ... Zirui Wang Ruoming Pang Peter Grasch Alexander Toshev Yinfei Yang MLLM 27 186 0 14 Mar 2024
Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters Weizhi Wang Khalil Mrini Linjie Yang Sateesh Kumar Yu Tian Xifeng Yan Heng Wang 35 16 0 05 Mar 2024
Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model via Cross-modal Alignment Angelos Zavras Dimitrios Michail Begum Demir Ioannis Papoutsis VLM 22 11 0 15 Feb 2024
EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters Quan-Sen Sun Jinsheng Wang Qiying Yu Yufeng Cui Fan Zhang Xiaosong Zhang Xinlong Wang VLM CLIP MLLM 83 40 0 06 Feb 2024
Variance Alignment Score: A Simple But Tough-to-Beat Data Selection Method for Multimodal Contrastive Learning Yiping Wang Yifang Chen Wendan Yan Kevin G. Jamieson S. Du 26 5 0 03 Feb 2024
Computer Vision for Primate Behavior Analysis in the Wild Richard Vogg Timo Lüddecke Jonathan Henrich Sharmita Dey Matthias Nuske ... Alexander Gail Stefan Treue H. Scherberger F. Worgotter Alexander S. Ecker 28 3 0 29 Jan 2024
Scalable Pre-training of Large Autoregressive Image Models Alaaeldin El-Nouby Michal Klein Shuangfei Zhai Miguel Angel Bautista Alexander Toshev Vaishaal Shankar J. Susskind Armand Joulin VLM 14 71 0 16 Jan 2024
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs Shengbang Tong Zhuang Liu Yuexiang Zhai Yi-An Ma Yann LeCun Saining Xie VLM MLLM 27 283 0 11 Jan 2024
Combining inherent knowledge of vision-language models with unsupervised domain adaptation through self-knowledge distillation Thomas Westfechtel Dexuan Zhang Tatsuya Harada VLM 24 2 0 07 Dec 2023
MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training Pavan Kumar Anasosalu Vasu Hadi Pouransari Fartash Faghri Raviteja Vemulapalli Oncel Tuzel CLIP VLM 16 43 0 28 Nov 2023
VideoCon: Robust Video-Language Alignment via Contrast Captions Hritik Bansal Yonatan Bitton Idan Szpektor Kai-Wei Chang Aditya Grover 28 14 0 15 Nov 2023
SILC: Improving Vision Language Pretraining with Self-Distillation Muhammad Ferjad Naeem Yongqin Xian Xiaohua Zhai Lukas Hoyer Luc Van Gool F. Tombari VLM 17 32 0 20 Oct 2023
VeCLIP: Improving CLIP Training via Visual-enriched Captions Zhengfeng Lai Haotian Zhang Bowen Zhang Wentao Wu Haoping Bai ... Zhe Gan Jiulong Shan Chen-Nee Chuah Yinfei Yang Meng Cao CLIP VLM 29 28 0 11 Oct 2023
Sieve: Multimodal Dataset Pruning Using Image Captioning Models Anas Mahmoud Mostafa Elhoushi Amro Abbas Yu Yang Newsha Ardalani Hugh Leather Ari S. Morcos VLM CLIP 32 19 0 03 Oct 2023
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model Shuai Zhao Xiaohan Wang Linchao Zhu Yezhou Yang CLIP VLM 19 25 0 23 May 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 259 4,223 0 30 Jan 2023
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 1,077 0 17 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 245 1,986 0 31 Dec 2020