FiLM: Visual Reasoning with a General Conditioning Layer

22 September 2017

Aaron Courville

Papers citing "FiLM: Visual Reasoning with a General Conditioning Layer"

50 / 1,304 papers shown

Title
Conformalized Interactive Imitation Learning: Handling Expert Shift and Intermittent Feedback Michelle Zhao Reid G. Simmons H. Admoni Aaditya Ramdas Andrea Bajcsy 41 4 0 11 Oct 2024
Scaling Laws For Diffusion Transformers Zhengyang Liang Hao He Ceyuan Yang Bo Dai 27 8 0 10 Oct 2024
Progressive Autoregressive Video Diffusion Models Desai Xie Zhan Xu Yicong Hong Hao Tan Difan Liu Feng Liu Arie E. Kaufman Yang Zhou VGen DiffM 56 10 0 10 Oct 2024
Diversified and Adaptive Negative Sampling on Knowledge Graphs Ran Liu Zhongzhou Liu Xiaoli Li Hao Wu Yuan Fang 16 0 0 10 Oct 2024
Learning to Generate Diverse Pedestrian Movements from Web Videos with Noisy Labels Zhizheng Liu Joe Lin Wayne Wu Bolei Zhou VGen 91 0 0 10 Oct 2024
Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation Qingwen Bu Hongyang Li Li Chen Jisong Cai Jia Zeng Heming Cui Maoqing Yao Yu Qiao 36 3 0 10 Oct 2024
NetDiff: Deep Graph Denoising Diffusion for Ad Hoc Network Topology Generation Félix Marcoccia C. Adjih P. Mühlethaler DiffM 16 0 0 09 Oct 2024
HE-Drive: Human-Like End-to-End Driving with Vision Language Models Junming Wang Xingyu Zhang Zebin Xing Songen Gu Xiaoyang Guo Yang Hu Ziying Song Qian Zhang Xiaoxiao Long Wei Yin 44 9 0 07 Oct 2024
L-C4: Language-Based Video Colorization for Creative and Consistent Color Zheng Chang Shuchen Weng Huan Ouyang Yu Li Si Li Boxin Shi DiffM VGen VLM 28 0 0 07 Oct 2024
Demo of Zero-Shot Guitar Amplifier Modelling: Enhancing Modeling with Hyper Neural Networks Yu-Hua Chen Yuan-Chiao Cheng Yen-Tung Yeh Jui-Te Wu Yu-Hsiang Ho J. Jang Yi-Hsuan Yang 21 0 0 07 Oct 2024
LeLaN: Learning A Language-Conditioned Navigation Policy from In-the-Wild Videos Noriaki Hirose Catherine Glossop A. Sridhar Dhruv Shah Oier Mees Sergey Levine LM&Ro 29 10 0 04 Oct 2024
Training Over a Distribution of Hyperparameters for Enhanced Performance and Adaptability on Imbalanced Classification Kelsey Lieberman Swarna Kamlam Ravindran Shuai Yuan Carlo Tomasi OOD 33 0 0 04 Oct 2024
VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning Han Lin Tushar Nagarajan Nicolas Ballas Mido Assran Mojtaba Komeili Mohit Bansal Koustuv Sinha AI4TS 52 3 0 04 Oct 2024
Dynamic Diffusion Transformer Wangbo Zhao Yizeng Han Jiasheng Tang Kai Wang Yibing Song Gao Huang Fan Wang Yang You 77 11 0 04 Oct 2024
MultiVerse: Efficient and Expressive Zero-Shot Multi-Task Text-to-Speech Taejun Bak Youngsik Eom SeungJae Choi Young-Sun Joo 18 0 0 04 Oct 2024
Dynamical-generative downscaling of climate model ensembles Ignacio Lopez-Gomez Zhong Yi Wan Leonardo Zepeda-Núnez Tapio Schneider John R. Anderson Fei Sha AI4Cl 19 1 0 02 Oct 2024
Robo-MUTUAL: Robotic Multimodal Task Specification via Unimodal Learning Jianxiong Li Zhihao Wang Jinliang Zheng Xiaoai Zhou Guanming Wang ... Yu Liu Jingjing Liu Ya-Qin Zhang Junzhi Yu Xianyuan Zhan 31 2 0 02 Oct 2024
AVID: Adapting Video Diffusion Models to World Models Marc Rigter Tarun Gupta Agrin Hilmkil Chao Ma VGen 17 3 0 01 Oct 2024
Personalisation via Dynamic Policy Fusion Ajsal Shereef Palattuparambil T. G. Karimpanal Santu Rana 24 0 0 30 Sep 2024
GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation Yangtao Chen Zixuan Chen Junhui Yin Jing Huo Pinzhuo Tian Jieqi Shi Yang Gao LM&Ro 42 2 0 30 Sep 2024
Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner Chenyou Fan Chenjia Bai Zhao Shan Haoran He Yang Zhang Zhen Wang 28 3 0 30 Sep 2024
FoAM: Foresight-Augmented Multi-Task Imitation Policy for Robotic Manipulation Litao Liu Wentao Wang Yifan Han Zhuoli Xie Pengfei Yi Junyan Li Yi Qin Wenzhao Lian 32 2 0 29 Sep 2024
Learning Wheelchair Tennis Navigation from Broadcast Videos with Domain Knowledge Transfer and Diffusion Motion Planning Zixuan Wu Z. Zaidi Adithya Patil Qingyu Xiao Matthew C. Gombolay 67 0 0 29 Sep 2024
FlashMix: Fast Map-Free LiDAR Localization via Feature Mixing and Contrastive-Constrained Accelerated Training Raktim Gautam Goswami Naman Patel P. Krishnamurthy Farshad Khorrami 21 2 0 27 Sep 2024
Off to new Shores: A Dataset & Benchmark for (near-)coastal Flood Inundation Forecasting Brandon Victor Mathilde Letard Peter Naylor Karim Douch Nicolas Longépé Zhen He Patrick Ebel AI4CE 17 0 0 27 Sep 2024
Discrete Policy: Learning Disentangled Action Space for Multi-Task Robotic Manipulation Kun Wu Yichen Zhu Jinming Li Junjie Wen Ning Liu Zhiyuan Xu Qinru Qiu 35 4 0 27 Sep 2024
Joint Localization and Planning using Diffusion Lukas Lao Beyer S. Karaman 33 0 0 26 Sep 2024
Broadcast Product: Shape-aligned Element-wise Multiplication and Beyond Yusuke Matsui Tatsuya Yokota 13 0 0 26 Sep 2024
WeSep: A Scalable and Flexible Toolkit Towards Generalizable Target Speaker Extraction Shuai Wang Ke Zhang Shaoxiong Lin Junjie Li Xuefei Wang Meng Ge Jianwei Yu Yanmin Qian Haizhou Li 37 8 0 24 Sep 2024
Learning Diverse Robot Striking Motions with Diffusion Models and Kinematically Constrained Gradient Guidance Kin Man Lee Sean Ye Qingyu Xiao Zixuan Wu Z. Zaidi David B. DÁmbrosio Pannag R. Sanketi Matthew Gombolay 69 0 0 23 Sep 2024
BrainDreamer: Reasoning-Coherent and Controllable Image Generation from EEG Brain Signals via Language Guidance Ling Wang Chen Wu Lin Wang DiffM 29 0 0 21 Sep 2024
Exploring Text-Queried Sound Event Detection with Audio Source Separation Han Yin Jisheng Bai Yang Xiao Hui Wang Siqi Zheng Yafeng Chen Rohan Kumar Das Chong Deng Jianfeng Chen 30 3 0 20 Sep 2024
Leveraging Audio-Only Data for Text-Queried Target Sound Extraction Kohei Saijo Janek Ebbers François G. Germain Sameer Khurana G. Wichern Jonathan Le Roux 32 1 0 20 Sep 2024
Channel-Aware Domain-Adaptive Generative Adversarial Network for Robust Speech Recognition Chien-Chun Wang Li-Wei Chen Cheng-Kang Chou Hung-Shin Lee Berlin Chen Hsin-Min Wang 20 0 0 19 Sep 2024
VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation Zhijie Wang Zhehua Zhou Jiayang Song Yuheng Huang Zhan Shu Lei Ma LM&Ro 66 5 0 19 Sep 2024
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation Junjie Wen Y. X. Zhu Jinming Li Minjie Zhu Kun Wu ... Ran Cheng Chaomin Shen Yaxin Peng Feifei Feng Jian Tang LM&Ro 56 41 0 19 Sep 2024
ViolinDiff: Enhancing Expressive Violin Synthesis with Pitch Bend Conditioning Daewoong Kim Hao-Wen Dong Dasaem Jeong 18 0 0 19 Sep 2024
RaggeDi: Diffusion-based State Estimation of Disordered Rags, Sheets, Towels and Blankets Jikai Ye Wanze Li Shiraz Khan Gregory S. Chirikjian DiffM 23 0 0 18 Sep 2024
Context-Conditioned Spatio-Temporal Predictive Learning for Reliable V2V Channel Prediction Lei Chu Daoud Burghal Rui Wang Michael Neuman A. Molisch 29 0 0 16 Sep 2024
HiFi-CS: Towards Open Vocabulary Visual Grounding For Robotic Grasping Using Vision-Language Models V. Bhat P. Krishnamurthy Ramesh Karri Farshad Khorrami 42 3 0 16 Sep 2024
Joint image reconstruction and segmentation of real-time cardiac MRI in free-breathing using a model based on disentangled representation learning T. Wech Oliver Schad Simon Sauer Jonas Kleineisel Nils Petri P. Nordbeck Thorsten A. Bley Bettina Baeßler B. Petritsch J. Heidenreich 35 0 0 13 Sep 2024
MambaFoley: Foley Sound Generation using Selective State-Space Models Marco Furio Colombo Francesca Ronchini Luca Comanducci Fabio Antonacci Mamba 20 1 0 13 Sep 2024
TabMixer: Noninvasive Estimation of the Mean Pulmonary Artery Pressure via Imaging and Tabular Data Mixing Michal K. Grzeszczyk Przemysław Korzeniowski S. Alabed Andrew J Swift Tomasz Trzciñski Arkadiusz Sitek 30 0 0 11 Sep 2024
WaveTransfer: A Flexible End-to-end Multi-instrument Timbre Transfer with Diffusion Teysir Baoueb Xiaoyu Bie Hicham Janati Gaël Richard DiffM 16 0 0 06 Sep 2024
USEF-TSE: Universal Speaker Embedding Free Target Speaker Extraction Bang Zeng Ming Li 29 2 0 04 Sep 2024
Dynamic Motion Synthesis: Masked Audio-Text Conditioned Spatio-Temporal Transformers Sohan Anisetty James Hays 33 0 0 03 Sep 2024
Effective Noise-aware Data Simulation for Domain-adaptive Speech Enhancement Leveraging Dynamic Stochastic Perturbation Chien-Chun Wang Li-Wei Chen Hung-Shin Lee Berlin Chen Hsin-Min Wang 27 1 0 03 Sep 2024
Semantically Controllable Augmentations for Generalizable Robot Learning Zoey Chen Zhao Mandi Homanga Bharadhwaj Mohit Sharma Shuran Song Abhishek Gupta Vikash Kumar LM&Ro 29 5 0 02 Sep 2024
Affordance-based Robot Manipulation with Flow Matching Fan Zhang Michael Gienger 47 5 0 02 Sep 2024
AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation Zanlin Ni Yulin Wang Renping Zhou Rui Lu Jiayi Guo Jinyi Hu Zhiyuan Liu Yuan Yao Gao Huang 25 7 0 31 Aug 2024