Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
1711.00937
Cited By

Neural Discrete Representation Learning

v1v2 (latest)

Neural Discrete Representation Learning

2 November 2017

Aaron van den Oord

Koray Kavukcuoglu

ArXiv (abs)PDF HTML

Papers citing "Neural Discrete Representation Learning"

50 / 3,803 papers shown

AMS-KV: Adaptive KV Caching in Multi-Scale Visual Autoregressive Transformers

280

0

0

20 Nov 2025

Progressive Supernet Training for Efficient Visual Autoregressive Modeling

102

0

0

20 Nov 2025

MamTiff-CAD: Multi-Scale Latent Diffusion with Mamba+ for Complex Parametric Sequence

MamTiff-CAD: Multi-Scale Latent Diffusion with Mamba+ for Complex Parametric Sequence

92

0

0

20 Nov 2025

LiSTAR: Ray-Centric World Models for 4D LiDAR Sequences in Autonomous Driving

...

409

0

0

20 Nov 2025

Mem-MLP: Real-Time 3D Human Motion Generation from Sparse Inputs

Georgios Fotios Angelis

Anastasios Drosou

355

0

0

20 Nov 2025

Learning Human-Like RL Agents Through Trajectory Optimization With Action Quantization

Learning Human-Like RL Agents Through Trajectory Optimization With Action Quantization

Ping-Chun Hsieh

92

0

0

19 Nov 2025

Taming Generative Synthetic Data for X-ray Prohibited Item Detection

Taming Generative Synthetic Data for X-ray Prohibited Item Detection

157

0

0

19 Nov 2025

Voiced-Aware Style Extraction and Style Direction Adjustment for Expressive Text-to-Speech

Voiced-Aware Style Extraction and Style Direction Adjustment for Expressive Text-to-Speech

81

0

0

18 Nov 2025

StreamingTalker: Audio-driven 3D Facial Animation with Autoregressive Diffusion Model

StreamingTalker: Audio-driven 3D Facial Animation with Autoregressive Diffusion Model

324

0

0

18 Nov 2025

GeoSceneGraph: Geometric Scene Graph Diffusion Model for Text-guided 3D Indoor Scene Synthesis

GeoSceneGraph: Geometric Scene Graph Diffusion Model for Text-guided 3D Indoor Scene Synthesis

Helge J. Ritter

138

0

0

18 Nov 2025

Towards Deploying VLA without Fine-Tuning: Plug-and-Play Inference-Time VLA Policy Steering via Embodied Evolutionary Diffusion

Towards Deploying VLA without Fine-Tuning: Plug-and-Play Inference-Time VLA Policy Steering via Embodied Evolutionary Diffusion

88

0

0

18 Nov 2025

B-Rep Distance Functions (BR-DF): How to Represent a B-Rep Model by Volumetric Distance Functions?

B-Rep Distance Functions (BR-DF): How to Represent a B-Rep Model by Volumetric Distance Functions?

Yasutaka Furukawa

132

0

0

18 Nov 2025

Infinite-Story: A Training-Free Consistent Text-to-Image Generation

Infinite-Story: A Training-Free Consistent Text-to-Image Generation

111

0

1

17 Nov 2025

MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging

MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging

99

0

0

17 Nov 2025

CoordAR: One-Reference 6D Pose Estimation of Novel Objects via Autoregressive Coordinate Map Generation

CoordAR: One-Reference 6D Pose Estimation of Novel Objects via Autoregressive Coordinate Map Generation

201

0

0

17 Nov 2025

ActVAR: Activating Mixtures of Weights and Tokens for Efficient Visual Autoregressive Generation

ActVAR: Activating Mixtures of Weights and Tokens for Efficient Visual Autoregressive Generation

138

0

0

17 Nov 2025

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

178

0

0

17 Nov 2025

InterMoE: Individual-Specific 3D Human Interaction Generation via Dynamic Temporal-Selective MoE

InterMoE: Individual-Specific 3D Human Interaction Generation via Dynamic Temporal-Selective MoE

94

0

0

17 Nov 2025

Seg-VAR: Image Segmentation with Visual Autoregressive Modeling

Seg-VAR: Image Segmentation with Visual Autoregressive Modeling

Hengshuang Zhao

134

0

0

16 Nov 2025

DEMIST: Decoupled Multi-stream latent diffusion for Quantitative Myelin Map Synthesis

DEMIST: Decoupled Multi-stream latent diffusion for Quantitative Myelin Map Synthesis

Taegan Vinarsky

...

175

0

0

16 Nov 2025

Through-Foliage Surface-Temperature Reconstruction for early Wildfire Detection

Through-Foliage Surface-Temperature Reconstruction for early Wildfire Detection

Mohamed Youssef

Klaus Rundhammer

80

1

0

16 Nov 2025

VLA-R: Vision-Language Action Retrieval toward Open-World End-to-End Autonomous Driving

VLA-R: Vision-Language Action Retrieval toward Open-World End-to-End Autonomous Driving

David Hyunchul Shim

200

1

0

16 Nov 2025

DINO-Detect: A Simple yet Effective Framework for Blur-Robust AI-Generated Image Detection

DINO-Detect: A Simple yet Effective Framework for Blur-Robust AI-Generated Image Detection

...

239

0

0

16 Nov 2025

ReCast: Reliability-aware Codebook Assisted Lightweight Time Series Forecasting

ReCast: Reliability-aware Codebook Assisted Lightweight Time Series Forecasting

106

0

0

15 Nov 2025

LiDAR-GS++:Improving LiDAR Gaussian Reconstruction via Diffusion Priors

LiDAR-GS++:Improving LiDAR Gaussian Reconstruction via Diffusion Priors

156

1

0

15 Nov 2025

Improved Masked Image Generation with Knowledge-Augmented Token Representations

Improved Masked Image Generation with Knowledge-Augmented Token Representations

120

0

0

15 Nov 2025

Point Cloud Quantization through Multimodal Prompting for 3D Understanding

Point Cloud Quantization through Multimodal Prompting for 3D Understanding

434

0

0

15 Nov 2025

MixAR: Mixture Autoregressive Image Generation

MixAR: Mixture Autoregressive Image Generation

157

0

0

15 Nov 2025

Towards Leveraging Sequential Structure in Animal Vocalizations

Towards Leveraging Sequential Structure in Animal Vocalizations

Mathew Magimai.-Doss

146

0

0

13 Nov 2025

Optimizing Input of Denoising Score Matching is Biased Towards Higher Score Norm

Optimizing Input of Denoising Score Matching is Biased Towards Higher Score Norm

156

1

0

13 Nov 2025

Learning Binary Autoencoder-Based Codes with Progressive Training

Learning Binary Autoencoder-Based Codes with Progressive Training

D. Vukobratović

73

0

0

12 Nov 2025

Large Sign Language Models: Toward 3D American Sign Language Translation

Large Sign Language Models: Toward 3D American Sign Language Translation

Dimitris N. Metaxas

Mubbasir Kapadia

309

1

0

11 Nov 2025

From IDs to Semantics: A Generative Framework for Cross-Domain Recommendation with Adaptive Semantic Tokenization

From IDs to Semantics: A Generative Framework for Cross-Domain Recommendation with Adaptive Semantic Tokenization

137

2

0

11 Nov 2025

From Classical to Hybrid: A Practical Framework for Quantum-Enhanced Learning

From Classical to Hybrid: A Practical Framework for Quantum-Enhanced Learning

Silvie Illésová

Tomáš Bezděk

Vojtěch Novák

Stefano Cacciatore

202

0

0

11 Nov 2025

Twist and Compute: The Cost of Pose in 3D Generative Diffusion

Twist and Compute: The Cost of Pose in 3D Generative Diffusion

Cengiz Öztireli

144

0

0

11 Nov 2025

Retrospective motion correction in MRI using disentangled embeddings

Retrospective motion correction in MRI using disentangled embeddings

92

0

0

11 Nov 2025

ViPRA: Video Prediction for Robot Actions

ViPRA: Video Prediction for Robot Actions

Sandeep Routray

236

2

0

11 Nov 2025

CAST-LUT: Tokenizer-Guided HSV Look-Up Tables for Purple Flare Removal

CAST-LUT: Tokenizer-Guided HSV Look-Up Tables for Purple Flare Removal

121

0

0

10 Nov 2025

VAEVQ: Enhancing Discrete Visual Tokenization through Variational Modeling

VAEVQ: Enhancing Discrete Visual Tokenization through Variational Modeling

196

0

0

10 Nov 2025

Enhancing Multimodal Misinformation Detection by Replaying the Whole Story from Image Modality Perspective

Enhancing Multimodal Misinformation Detection by Replaying the Whole Story from Image Modality Perspective

Shengsheng Wang

140

1

0

09 Nov 2025

Seq2Seq Models Reconstruct Visual Jigsaw Puzzles without Seeing Them

Seq2Seq Models Reconstruct Visual Jigsaw Puzzles without Seeing Them

Ofir Itzhak Shahar

Ohad Ben-Shahar

92

0

0

09 Nov 2025

PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection

PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection

403

1

0

06 Nov 2025

InfinityStar: Unified Spacetime AutoRegressive Modeling for Visual Generation

InfinityStar: Unified Spacetime AutoRegressive Modeling for Visual Generation

264

3

0

06 Nov 2025

Unified Multimodal Diffusion Forcing for Forceful Manipulation

Unified Multimodal Diffusion Forcing for Forceful Manipulation

Dmitry Berenson

97

0

0

06 Nov 2025

XR-1: Towards Versatile Vision-Language-Action Models via Learning Unified Vision-Motion Representations

XR-1: Towards Versatile Vision-Language-Action Models via Learning Unified Vision-Motion Representations

...

Shanghang Zhang

250

1

0

04 Nov 2025

Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process

Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process

140

3

0

03 Nov 2025

ExplicitLM: Decoupling Knowledge from Parameters via Explicit Memory Banks

ExplicitLM: Decoupling Knowledge from Parameters via Explicit Memory Banks

143

0

0

03 Nov 2025

Wave-Particle (Continuous-Discrete) Dualistic Visual Tokenization for Unified Understanding and Generation

Wave-Particle (Continuous-Discrete) Dualistic Visual Tokenization for Unified Understanding and Generation

138

0

0

03 Nov 2025

MoSa: Motion Generation with Scalable Autoregressive Modeling

MoSa: Motion Generation with Scalable Autoregressive Modeling

188

2

0

03 Nov 2025

Embodied Cognition Augmented End2End Autonomous Driving

Embodied Cognition Augmented End2End Autonomous Driving

108

0

0

03 Nov 2025

1 2 3 4 5...75 76 77