BERT's output layer recognizes all hidden layers? Some Intriguing Phenomena and a simple way to boost BERT

25 January 2020

Papers citing "BERT's output layer recognizes all hidden layers? Some Intriguing Phenomena and a simple way to boost BERT"

3 / 3 papers shown

Title
Pre-Trained Models: Past, Present and Future Xu Han Zhengyan Zhang Ning Ding Yuxian Gu Xiao Liu ... Jie Tang Ji-Rong Wen Jinhui Yuan Wayne Xin Zhao Jun Zhu AIFin MQ AI4MH 35 813 0 14 Jun 2021
GiBERT: Introducing Linguistic Knowledge into BERT through a Lightweight Gated Injection Method Nicole Peinelt Marek Rei Maria Liakata 22 2 0 23 Oct 2020
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 297 6,950 0 20 Apr 2018