Language Modeling with Gated Convolutional Networks

23 December 2016

Angela Fan

Papers citing "Language Modeling with Gated Convolutional Networks"

50 / 915 papers shown

Title
FedAli: Personalized Federated Learning with Aligned Prototypes through Optimal Transport Sannara Ek Kaile Wang François Portet P. Lalanda Jiannong Cao FedML 38 0 0 15 Nov 2024
HMIL: Hierarchical Multi-Instance Learning for Fine-Grained Whole Slide Image Classification C. Jin Luyang Luo Huangjing Lin Jun Hou Hao Chen 52 4 0 12 Nov 2024
Sparsing Law: Towards Large Language Models with Greater Activation Sparsity Yuqi Luo Chenyang Song Xu Han Yuxiao Chen Chaojun Xiao Zhiyuan Liu Maosong Sun 57 3 0 04 Nov 2024
Bielik 7B v0.1: A Polish Language Model -- Development, Insights, and Evaluation Krzysztof Ociepa Łukasz Flis Krzysztof Wróbel Adrian Gwoździej Remigiusz Kinas 27 1 0 24 Oct 2024
PLDR-LLM: Large Language Model from Power Law Decoder Representations Burc Gokden 26 1 0 22 Oct 2024
Survey and Evaluation of Converging Architecture in LLMs based on Footsteps of Operations Seongho Kim Jihyun Moon Juntaek Oh Insu Choi Joon-Sung Yang 26 0 0 15 Oct 2024
Rethinking Graph Transformer Architecture Design for Node Classification Jiajun Zhou Xuanze Chen Chenxuan Xie Yu Shanqing Qi Xuan Xiaoniu Yang 31 0 0 15 Oct 2024
SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers Enze Xie Junsong Chen Junyu Chen Han Cai Haotian Tang ... Zhekai Zhang Muyang Li Ligeng Zhu Yaojie Lu Song Han VLM 52 51 0 14 Oct 2024
EEGPT: Unleashing the Potential of EEG Generalist Foundation Model by Autoregressive Pre-training Tongtian Yue Shuning Xue Xuange Gao Yepeng Tang Longteng Guo Jie Jiang Qingbin Liu 32 4 0 14 Oct 2024
Fusion Matrix Prompt Enhanced Self-Attention Spatial-Temporal Interactive Traffic Forecasting Framework Mu Liu MingChen Sun YingJi Li Ying Wang AI4TS 39 0 0 12 Oct 2024
TD-Paint: Faster Diffusion Inpainting Through Time Aware Pixel Conditioning Tsiry Mayet Pourya Shamsolmoali Simon Bernard Eric Granger Romain Hérault Clément Chatelain DiffM 36 0 0 11 Oct 2024
Gumbel Rao Monte Carlo based Bi-Modal Neural Architecture Search for Audio-Visual Deepfake Detection Aravinda Reddy PN Raghavendra Ramachandra K. S. Rao Pabitra Mitra Vinod Rathod 28 0 0 09 Oct 2024
Rodimus*: Breaking the Accuracy-Efficiency Trade-Off with Efficient Attentions Zhihao He Hang Yu Zi Gong Shizhan Liu J. Li Weiyao Lin VLM 38 1 0 09 Oct 2024
SPikE-SSM: A Sparse, Precise, and Efficient Spiking State Space Model for Long Sequences Learning Yan Zhong Ruoyu Zhao Chao Wang Qinghai Guo Jianguo Zhang Zhichao Lu Luziwei Leng 57 2 0 07 Oct 2024
A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition David-Gabriel Ion Razvan-Alexandru Smadu Dumitru-Clementin Cercel Florin-Catalin Pop Mihaela-Claudia Cercel 28 0 0 06 Oct 2024
PRF: Parallel Resonate and Fire Neuron for Long Sequence Learning in Spiking Neural Networks Yulong Huang Zunchang Liu Changchun Feng Xiaopeng Lin Hongwei Ren Haotian Fu Yue Zhou Hong Xing Bojun Cheng 44 1 0 04 Oct 2024
Oscillatory State-Space Models T. Konstantin Rusch Daniela Rus AI4TS 171 6 0 04 Oct 2024
Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs Mehdi Ali Michael Fromm Klaudia Thellmann Jan Ebert Alexander Arno Weber ... René Jäkel Georg Rehm Stefan Kesselheim Joachim Köhler Nicolas Flores-Herr 72 6 0 30 Sep 2024
Privacy Attack in Federated Learning is Not Easy: An Experimental Study Hangyu Zhu Liyuan Huang Zhenping Xie FedML 26 0 0 28 Sep 2024
Cottention: Linear Transformers With Cosine Attention Gabriel Mongaras Trevor Dohm Eric C. Larson 26 0 0 27 Sep 2024
Decoding Large-Language Models: A Systematic Overview of Socio-Technical Impacts, Constraints, and Emerging Questions Zeyneb N. Kaya Souvick Ghosh 42 0 0 25 Sep 2024
The Credibility Transformer Ronald Richman Salvatore Scognamiglio M. Wüthrich 36 1 0 25 Sep 2024
dnaGrinder: a lightweight and high-capacity genomic foundation model Qihang Zhao Chi Zhang Weixiong Zhang 31 0 0 24 Sep 2024
Cross-modality image synthesis from TOF-MRA to CTA using diffusion-based models Alexander Koch O. U. Aydin A. Hilbert Jana Rieger Satoru Tanioka F. Ishida Dietmar Frey DiffM MedIm 44 1 0 16 Sep 2024
SDformer: Efficient End-to-End Transformer for Depth Completion Jian Qian Miao Sun Ashley Lee Jie Li Shenglong Zhuo Patrick Chiang ViT MDE 42 2 0 12 Sep 2024
GateAttentionPose: Enhancing Pose Estimation with Agent Attention and Improved Gated Convolutions Liang Feng Zhixuan Shen Lihua Wen Shiyao Li Ming Xu CVBM 33 0 0 12 Sep 2024
Gated Slot Attention for Efficient Linear-Time Sequence Modeling Yu Zhang Aaron Courville Ruijie Zhu Yue Zhang Leyang Cui ... Freda Shi Bailin Wang Wei Bi P. Zhou Guohong Fu 68 17 0 11 Sep 2024
A Two-Stage Band-Split Mamba-2 Network For Music Separation Jinglin Bai Yuan Fang Jiajie Wang Xueliang Zhang Mamba 27 1 0 10 Sep 2024
Mel-RoFormer for Vocal Separation and Vocal Melody Transcription Ju-Chiang Wang Fan Zhang Jitong Chen 34 1 0 07 Sep 2024
FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation Takuhiro Kaneko Hirokazu Kameoka Kou Tanaka Yuto Kondo DiffM 45 1 0 03 Sep 2024
A Hybrid Transformer-Mamba Network for Single Image Deraining Shangquan Sun Wenqi Ren Juxiang Zhou Jianhou Gan Rui Wang Xiaochun Cao Mamba 54 5 0 31 Aug 2024
Legilimens: Practical and Unified Content Moderation for Large Language Model Services Jialin Wu Jiangyi Deng Shengyuan Pang Yanjiao Chen Jiayang Xu Xinfeng Li Wenyuan Xu 40 6 0 28 Aug 2024
Can Transformers Do Enumerative Geometry? Baran Hashemi Roderic G. Corominas Alessandro Giacchetto 44 2 0 27 Aug 2024
Joint Hypergraph Rewiring and Memory-Augmented Forecasting Techniques in Digital Twin Technology Sagar Srinivas Sakhinana Krishna Sai Sudhir Aripirala Shivam Gupta Venkataramana Runkana 35 0 0 22 Aug 2024
Multi-Source Knowledge-Based Hybrid Neural Framework for Time Series Representation Learning Sagar Srinivas Sakhinana Krishna Sai Sudhir Aripirala Shivam Gupta Venkataramana Runkana BDL AI4TS AI4CE 38 0 0 22 Aug 2024
Exploring Robustness of Visual State Space model against Backdoor Attacks Cheng-Yi Lee Cheng-Chang Tsai Chia-Mu Yu Chun-Shien Lu AAML 25 0 0 21 Aug 2024
Predicting travel demand of a bike sharing system using graph convolutional neural networks Ali Behroozi A. Edrisi GNN AI4TS 27 0 0 18 Aug 2024
The Dawn of KAN in Image-to-Image (I2I) Translation: Integrating Kolmogorov-Arnold Networks with GANs for Unpaired I2I Translation Arpan Mahara N. Rishe Liangdong Deng VLM GAN 45 2 0 15 Aug 2024
CROME: Cross-Modal Adapters for Efficient Multimodal LLM Sayna Ebrahimi Sercan Ö. Arik Tejas Nama Tomas Pfister 49 1 0 13 Aug 2024
VisionUnite: A Vision-Language Foundation Model for Ophthalmology Enhanced with Clinical Knowledge Zihan Li Diping Song Zefeng Yang Deming Wang Fei Li Xiulan Zhang P. E. Kinahan Yu Qiao VLM LM&MA 22 3 0 05 Aug 2024
UniProcessor: A Text-induced Unified Low-level Image Processor Huiyu Duan Xiongkuo Min Sijing Wu Wei Shen Guangtao Zhai DiffM 47 8 0 30 Jul 2024
CRASH: Crash Recognition and Anticipation System Harnessing with Context-Aware and Temporal Focus Attentions Haicheng Liao Haoyu Sun Huanming Shen Chengyue Wang Kahou Tam Chunlin Tian Li Li Chengzhong Xu Zhenning Li 34 6 0 25 Jul 2024
Longhorn: State Space Models are Amortized Online Learners Bo Liu Rui Wang Lemeng Wu Yihao Feng Peter Stone Qian Liu 53 11 0 19 Jul 2024
Universal Facial Encoding of Codec Avatars from VR Headsets Shaojie Bai Tenia Wang Chenghui Li Akshay Venkatesh Tomas Simon ... Gabriel Schwartz Ryan Wrench Jason M. Saragih Yaser Sheikh S. Wei 3DH 41 6 0 17 Jul 2024
Gated Temporal Diffusion for Stochastic Long-Term Dense Anticipation Olga Zatsarynna Emad Bahrami Yazan Abu Farha Gianpiero Francesca Juergen Gall 45 1 0 16 Jul 2024
RIMformer: An End-to-End Transformer for FMCW Radar Interference Mitigation Ziang Zhang Guangzhi Chen Youlong Weng Shunchuan Yang Zhiyu Jia Jingxuan Chen 29 1 0 16 Jul 2024
Qwen2 Technical Report An Yang Baosong Yang Binyuan Hui Jian Xu Bowen Yu ... Yuqiong Liu Zeyu Cui Zhenru Zhang Zhifang Guo Zhi-Wei Fan OSLM VLM MU 60 805 0 15 Jul 2024
GROOT: Generating Robust Watermark for Diffusion-Model-Based Audio Synthesis Weizhi Liu Yue Li Dongdong Lin Hui Tian Haizhou Li WIGM 43 9 0 15 Jul 2024
Restoring Images in Adverse Weather Conditions via Histogram Transformer Shangquan Sun Wenqi Ren Xinwei Gao Rui Wang Xiaochun Cao 39 20 0 14 Jul 2024
Fine-grained Analysis of In-context Linear Estimation: Data, Architecture, and Beyond Yingcong Li A. S. Rawat Samet Oymak 25 6 0 13 Jul 2024