v1v2 (latest)

Neural Discrete Representation Learning

2 November 2017

Papers citing "Neural Discrete Representation Learning"

50 / 3,807 papers shown

OpenHA: A Series of Open-Source Hierarchical Agentic Models in Minecraft

181

13 Sep 2025

Scalable Training for Vector-Quantized Networks with 100% Codebook Utilization

151

12 Sep 2025

A Discrepancy-Based Perspective on Dataset Condensation

Tong Chen

Raghavendra Selvan

275

12 Sep 2025

InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis

126

12 Sep 2025

Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates

188

11 Sep 2025

DiFlow-TTS: Compact and Low-Latency Zero-Shot Text-to-Speech with Factorized Discrete Flow Matching

Ngoc Son Nguyen

Hieu-Nghia Huynh-Nguyen

Thanh V. T. Tran

Truong-Son Hy

Van Nguyen

169

11 Sep 2025

CoDiCodec: Unifying Continuous and Discrete Compressed Representations of Audio

Marco Pasini

Stefan Lattner

George Fazekas

143

11 Sep 2025

DeCodec: Rethinking Audio Codecs as Universal Disentangled Representation Learners

146

11 Sep 2025

World Modeling with Probabilistic Structure Integration

...

150

10 Sep 2025

Integrating Anatomical Priors into a Causal Diffusion Model

149

10 Sep 2025

LatentVoiceGrad: Nonparallel Voice Conversion with Latent Diffusion/Flow-Matching ModelsIEEE Transactions on Audio, Speech, and Language Processing (TASLP), 2025

117

10 Sep 2025

Bitrate-Controlled Diffusion for Disentangling Motion and Content in Video

137

10 Sep 2025

Tokenizing Loops of Antibodies

10 Sep 2025

Learning Turbulent Flows with Generative Models: Super-resolution, Forecasting, and Sparse Flow Reconstruction

171

10 Sep 2025

TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models

115

09 Sep 2025

Reconstruction Alignment Improves Unified Multimodal Models

223

08 Sep 2025

Continuous Audio Language Models

284

08 Sep 2025

UniSearch: Rethinking Search System with a Unified Generative Architecture

...

171

08 Sep 2025

1 bit is all we need: binary normalized neural networks

Eduardo Lobo Lustoda Cabral

Paulo Pirozelli

Larissa Driemeier

166

07 Sep 2025

Compression Beyond Pixels: Semantic Compression with Multimodal Foundation Models

127

07 Sep 2025

LatinX: Aligning a Multilingual TTS Model with Direct Preference Optimization

Luis Felipe Chary

Miguel Arjona Ramirez

06 Sep 2025

Phonological Representation Learning for Isolated Signs Improves Out-of-Vocabulary Generalization

Lee Kezar

Zed Sevcikova Sehyr

Jesse Thomason

05 Sep 2025

Missing Fine Details in Images: Last Seen in High Frequencies

307

05 Sep 2025

Human Motion Video Generation: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

...

235

04 Sep 2025

Skywork UniPic 2.0: Building Kontext Model with Online RL for Unified Multimodal Model

...

185

04 Sep 2025

Say More with Less: Variable-Frame-Rate Speech Tokenization via Adaptive Clustering and Implicit Duration Coding

242

04 Sep 2025

OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search

...

254

03 Sep 2025

RecBase: Generative Foundation Model Pretraining for Zero-Shot Recommendation

135

03 Sep 2025

SynBT: High-quality Tumor Synthesis for Breast Tumor Segmentation by 3D Diffusion Model

03 Sep 2025

Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing

217

02 Sep 2025

Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding

Luis Felipe Chary

Miguel Arjona Ramirez

02 Sep 2025

Hierarchical Motion Captioning Utilizing External Text Data Source

Clayton Frederick Souza Leite

Yu Xiao

107

01 Sep 2025

GPSToken: Gaussian Parameterized Spatially-adaptive Tokenization for Image Representation and Generation

286

01 Sep 2025

Distillation of a tractable model from the VQ-VAE

269

01 Sep 2025

Entropy-based Coarse and Compressed Semantic Speech Representation Learning

106

30 Aug 2025

Generative AI for Industrial Contour Detection: A Language-Guided Vision System

29 Aug 2025

Physics Informed Generative Models for Magnetic Field Images

28 Aug 2025

FORGE: Foundational Optimization Representations from Graph Embeddings

Zohair Shafi

Serdar Kadioglu

AI4CE

304

28 Aug 2025

Embracing Aleatoric Uncertainty: Generating Diverse 3D Human Motion

146

28 Aug 2025

Quantum latent distributions in deep generative models

Omar Bacarreza

Thorin Farnsworth

Alexander Makarovskiy

Hugo Wallner

Tessa Hicks

Santiago Sempere-Llagostera

John Price

Robert J. A. Francis-Jones

William R. Clements

DiffM

107

27 Aug 2025

Disentangling Latent Embeddings with Sparse Linear Concept Subspaces (SLiCS)

161

27 Aug 2025

Controllable Skin Synthesis via Lesion-Focused Vector Autoregression ModelInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025

119

27 Aug 2025

Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

...

179

27 Aug 2025

Fast 3D Diffusion for Scalable Granular Media Synthesis

Muhammad Moeeze Hassan

27 Aug 2025

MRExtrap: Longitudinal Aging of Brain MRIs using Linear Modeling in Latent Space

J. Kapoor

Jakob H Macke

Christian F. Baumgartner

MedIm

163

26 Aug 2025

Interpretable by AI Mother Tongue: Native Symbolic Reasoning in Neural Models

Hung Ming Liu

LRM

26 Aug 2025

EEG-FM-Bench: A Comprehensive Benchmark for the Systematic Evaluation of EEG Foundation Models

119

25 Aug 2025

PCR-CA: Parallel Codebook Representations with Contrastive Alignment for Multiple-Category App Recommendation

222

25 Aug 2025

MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling

154

24 Aug 2025

T2I-ReasonBench: Benchmarking Reasoning-Informed Text-to-Image Generation

181

24 Aug 2025