v1v2v3v4v5v6 (latest)

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

International Conference on Learning Representations (ICLR), 2019

26 September 2019

ArXiv (abs)PDF HTML Github (3271★)

Papers citing "ALBERT: A Lite BERT for Self-supervised Learning of Language Representations"

50 / 3,046 papers shown

Title
SoK: Are Watermarks in LLMs Ready for Deployment? Kieu Dang Phung Lai Nhathai Phan Yelong Shen Ruoming Jin Abdallah Khreishah My T. Thai 143 1 0 24 Dec 2025
Parameter Reduction Improves Vision Transformers: A Comparative Study of Sharing and Width Reduction Anantha Padmanaban Krishna Kumar ViT 28 0 0 30 Nov 2025
SemImage: Semantic Image Representation for Text, a Novel Framework for Embedding Disentangled Linguistic Features Mohammad Zare 28 0 0 26 Nov 2025
On the Origin of Algorithmic Progress in AI Hans Gundlach Alex Fogelson Jayson Lynch Ana Trisovic Jonathan Rosenfeld Anmol Sandhu Neil Thompson 68 0 0 26 Nov 2025
Large Language Models and 3D Vision for Intelligent Robotic Perception and AutonomyItalian National Conference on Sensors (INS), 2025 Vinit Mehta Charu Sharma Karthick Thiyagarajan LM&Ro 352 1 0 14 Nov 2025
Stratified Knowledge-Density Super-Network for Scalable Vision Transformers Longhua Li Lei Qi Xin Geng ViT 116 0 0 12 Nov 2025
Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence Sean McLeish Ang Li John Kirchenbauer Dayal Singh Kalra Brian Bartoldson B. Kailkhura Avi Schwarzschild Jonas Geiping Tom Goldstein Micah Goldblum 244 0 0 10 Nov 2025
Vocabulary In-Context Learning in Transformers: Benefits of Positional Encoding Qian Ma Ruoxiang Xu Yongqiang Cai 72 0 0 09 Nov 2025
Comparing Reconstruction Attacks on Pretrained Versus Full Fine-tuned Large Language Model Embeddings on Homo Sapiens Splice Sites Genomic Data Reem Al-Saidi Erman Ayday Ziad Kobti AAML 64 0 0 09 Nov 2025
Plan of Knowledge: Retrieval-Augmented Large Language Models for Temporal Knowledge Graph Question Answering Xinying Qian Ying Zhang Yu Zhao Baohang Zhou Xuhui Sui Xiaojie Yuan RALM 247 0 0 06 Nov 2025
ProM3E: Probabilistic Masked MultiModal Embedding Model for Ecology Srikumar Sastry Subash Khanal Aayush Dhakal Jiayu Lin Dan Cher Phoenix Jarosz Nathan Jacobs 124 0 0 04 Nov 2025
The Curved Spacetime of Transformer Architectures Riccardo Di Sipio Jairo Diaz-Rodriguez Luis Serrano 76 0 0 04 Nov 2025
TriCon-Fair: Triplet Contrastive Learning for Mitigating Social Bias in Pre-trained Language Models Chong Lyu Lin Li Shiqing Wu Jingling Yuan 112 0 0 02 Nov 2025
Mixture-of-Transformers Learn Faster: A Theoretical Study on Classification Problems Hongbo Li Qinhang Wu Sen-Fon Lin Yingbin Liang Ness B. Shroff MoE 120 0 0 30 Oct 2025
Beyond One-Size-Fits-All: Personalized Harmful Content Detection with In-Context Learning Rufan Zhang Lin Zhang Xianghang Mi 60 0 0 29 Oct 2025
Parallel Loop Transformer for Efficient Test-Time Computation Scaling Bohong Wu Mengzhao Chen Xiang Luo Shen Yan Qifan Yu ... Hongrui Zhan Zheng Zhong Xun Zhou Siyuan Qiao Xingyan Bin 100 2 0 28 Oct 2025
MERGE: Minimal Expression-Replacement GEneralization Test for Natural Language Inference Mădălina Zgreabăn Tejaswini Deoskar Lasha Abzianidze 94 0 0 28 Oct 2025
Manifold Approximation leads to Robust Kernel Alignment Mohammad Tariqul Islam Du Liu Deblina Sarkar 108 1 0 27 Oct 2025
Key and Value Weights Are Probably All You Need: On the Necessity of the Query, Key, Value weight Triplet in Decoder-Only Transformers Marko Karbevski Antonij Mijoski 147 0 0 27 Oct 2025
Knocking-Heads Attention Zhanchao Zhou Xiaodong Chen Haoxing Chen Zhenzhong Lan Jianguo Li 72 0 0 27 Oct 2025
SALSA: Single-pass Autoregressive LLM Structured Classification Ruslan Berdichevsky Shai Nahum-Gefen Elad Ben Zaken 108 0 0 26 Oct 2025
NeoDictaBERT: Pushing the Frontier of BERT models for Hebrew Shaltiel Shmidman Avi Shmidman Moshe Koppel VLM 75 0 0 23 Oct 2025
Tibetan Language and AI: A Comprehensive Survey of Resources, Methods and Challenges Cheng Huang Nyima Tashi Fan Gao Yutong Liu J. Li ... Guojie Tang Xiangxiang Wang Jia Zhang Tsengdar J. Lee Yongbin Yu 104 0 0 22 Oct 2025
Engagement Undermines Safety: How Stereotypes and Toxicity Shape Humor in Language Models Atharvan Dogra Soumya Suvra Ghosal Ameet Deshpande Ashwin Kalyan Dinesh Manocha 126 0 0 21 Oct 2025
ScaleNet: Scaling up Pretrained Neural Networks with Incremental Parameters Zhiwei Hao Jianyuan Guo Li Shen Kai Han Yehui Tang Han Hu Yunhe Wang 195 0 0 21 Oct 2025
Decoding Dynamic Visual Experience from Calcium Imaging via Cell-Pattern-Aware SSL Sangyoon Bae Mehdi Azabou Jiook Cha Blake Richards 108 0 0 21 Oct 2025
Explainability of Large Language Models: Opportunities and Challenges toward Generating Trustworthy Explanations Shahin Atakishiyev H. Babiker Jiayi Dai Nawshad Farruque Teruaki Hayashi ... Md Abed Rahman Iain Smith Mi-Young Kim Osmar R. Zaïane Randy Goebel LRM 137 0 0 20 Oct 2025
Extending Audio Context for Long-Form Understanding in Large Audio-Language Models Yuatyong Chaichana Pittawat Taveekitworachai Warit Sirichotedumrong Potsawee Manakul Kunat Pipatanakul AuLLM 124 0 0 17 Oct 2025
MemoTime: Memory-Augmented Temporal Knowledge Graph Enhanced Large Language Model Reasoning Xingyu Tan Xiaoyang Wang Xiwei Xu Xin Yuan Liming Zhu Wenjie Zhang KELM LRM 109 0 0 15 Oct 2025
ProtoSiTex: Learning Semi-Interpretable Prototypes for Multi-label Text Classification Utsav Nareti Suraj Kumar Soumya Pandey S. Chattopadhyay Chandranath Adak VLM 126 0 0 14 Oct 2025
DiSTAR: Diffusion over a Scalable Token Autoregressive Representation for Speech Generation Yakun Song Xiaobin Zhuang Jiawei Chen Zhikang Niu Guanrou Yang ... Zhuo Chen Yuping Wang Yuping Wang Xie Chen Xie Chen DiffM 140 0 0 14 Oct 2025
Traveling Salesman-Based Token Ordering Improves Stability in Homomorphically Encrypted Language Models Donghwan Rho Sieun Seo Hyewon Sung Chohong Min Ernest K. Ryu 116 0 0 14 Oct 2025
FedHybrid: Breaking the Memory Wall of Federated Learning via Hybrid Tensor ManagementACM International Conference on Embedded Networked Sensor Systems (SenSys), 2024 Kahou Tam Chunlin Tian Li Li Haikai Zhao Chengzhong Xu FedML 157 6 0 13 Oct 2025
Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts Yeskendir Koishekenov Aldo Lipani Nicola Cancedda LRM 110 2 0 08 Oct 2025
Activation-Informed Pareto-Guided Low-Rank Compression for Efficient LLM/VLM Ryan Solgi Parsa Madinei Jiayi Tian Rupak Vignesh Swaminathan Jing Liu Nathan Susanj Zheng Zhang 66 1 0 07 Oct 2025
MASA: Rethinking the Representational Bottleneck in LoRA with Multi-A Shared Adaptation Qin Dong Yuntian Tang Heming Jia Yunhang Shen Bohan Jia Wenxuan Huang Lianyue Zhang Jiao Xie Shaohui Lin MoE 76 0 0 07 Oct 2025
AgentDR Dynamic Recommendation with Implicit Item-Item Relations via LLM-based Agents Mingdai Yang Nurendra Choudhary Jiangshu Du Edward W.Huang Philip S.Yu Karthik Subbian Danai Kourta 132 0 0 07 Oct 2025
Downsized and Compromised?: Assessing the Faithfulness of Model Compression Moumita Kamal Douglas A. Talbert 100 0 0 07 Oct 2025
Dissecting Transformers: A CLEAR Perspective towards Green AI Hemang Jain Shailender Goyal Divyansh Pandey Karthik Vaidhyanathan 96 0 0 03 Oct 2025
Neural Correlates of Language Models Are Specific to Human Language Iñigo Parra 97 0 0 03 Oct 2025
PrunedLoRA: Robust Gradient-Based structured pruning for Low-rank Adaptation in Fine-tuning Xin Yu Cong Xie Ziyu Zhao Tiantian Fan Lingzhou Xue Zhi-Li Zhang 216 0 0 30 Sep 2025
CustomIR: Unsupervised Fine-Tuning of Dense Embeddings for Known Document Corpora Nathan Paull 78 0 0 30 Sep 2025
Efficient Layer-wise LLM Fine-tuning for Revision Intention Prediction Zhexiong Liu Diane Litman KELM 116 0 0 30 Sep 2025
Text-Based Approaches to Item Alignment to Content Standards in Large-Scale Reading & Writing Tests Yanbin Fu Hong Jiao Tianyi Zhou Robert Lissitz Nan Zhang Ming Li Qingshu Xu Sydney Peters 199 0 0 30 Sep 2025
Federated Learning Meets LLMs: Feature Extraction From Heterogeneous Clients Abdelrhman Gaber Hassan Abd-Eltawab Youssif Abuzied Muhammad ElMahdy Tamer ElBatt 80 0 0 29 Sep 2025
RedNote-Vibe: A Dataset for Capturing Temporal Dynamics of AI-Generated Text in Social Media Yudong Li Yufei Sun Yuhan Yao Peiru Yang Wanyue Li Jiajun Zou Yongfeng Huang LinLin Shen 125 0 0 26 Sep 2025
Detecting (Un)answerability in Large Language Models with Linear Directions Maor Juliet Lavi Tova Milo Mor Geva 132 0 0 26 Sep 2025
A Formal Comparison Between Chain-of-Thought and Latent Thought Kevin Xu Issei Sato ReLM LRM 69 0 0 25 Sep 2025
RedHerring Attack: Testing the Reliability of Attack Detection Jonathan Rusert AAML 72 0 0 25 Sep 2025
Every Character Counts: From Vulnerability to Defense in Phishing Detection Maria Chiper Radu Tudor Ionescu 185 0 0 24 Sep 2025