ConvBERT: Improving BERT with Span-based Dynamic Convolution

6 August 2020

Weihao Yu

Papers citing "ConvBERT: Improving BERT with Span-based Dynamic Convolution"

50 / 76 papers shown

Title
Navigating Nuance: In Quest for Political Truth Soumyadeep Sar Dwaipayan Roy 23 0 0 03 Jan 2025
A Decade of Deep Learning: A Survey on The Magnificent Seven Dilshod Azizov Muhammad Arslan Manzoor Velibor Bojkovic Yingxu Wang Z. Wang ... Liang Li Siwei Liu Yu Zhong Wei Liu Shangsong Liang OOD AI4TS MedIm 116 0 0 13 Dec 2024
Text Generation Models for Luxembourgish with Limited Data: A Balanced Multilingual Strategy Alistair Plum Tharindu Ranasinghe Christoph Purschke 64 2 0 12 Dec 2024
Can bidirectional encoder become the ultimate winner for downstream applications of foundation models? Lewen Yang Xuanyu Zhou Juao Fan Xinyi Xie Shengxin Zhu AI4CE 64 0 0 27 Nov 2024
Deep Insights into Cognitive Decline: A Survey of Leveraging Non-Intrusive Modalities with Deep Learning Techniques David Ortiz-Perez Manuel Benavent-Lledo José García Rodríguez David Tomás M. Flores Vizcaya-Moreno 28 0 0 24 Oct 2024
DyG-Mamba: Continuous State Space Modeling on Dynamic Graphs Dongyuan Li Shiyin Tan Ying Zhang Ming Jin Shirui Pan Manabu Okumura Renhe Jiang Mamba 18 2 0 13 Aug 2024
Automated Text Scoring in the Age of Generative AI for the GPU-poor C. Ormerod Alexander Kwako 46 2 0 02 Jul 2024
MambaOut: Do We Really Need Mamba for Vision? Weihao Yu Xinchao Wang Mamba 39 47 0 13 May 2024
RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing Yucheng Hu Yuxing Lu RALM 58 17 0 30 Apr 2024
Integrating LSTM and BERT for Long-Sequence Data Analysis in Intelligent Tutoring Systems Zhaoxing Li Jujie Yang Jindi Wang Lei Shi Sebastian Stein 14 2 0 24 Apr 2024
ChatGPT v.s. Media Bias: A Comparative Study of GPT-3.5 and Fine-tuned Language Models Zehao Wen Rabih Younes AI4MH 14 7 0 29 Mar 2024
depyf: Open the Opaque Box of PyTorch Compiler for Machine Learning Researchers Kaichao You Runsheng Bai Meng Cao Jianmin Wang Ion Stoica Mingsheng Long VLM 25 0 0 14 Mar 2024
Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling Mahdi Karami Ali Ghodsi VLM 36 6 0 28 Feb 2024
TURNA: A Turkish Encoder-Decoder Language Model for Enhanced Understanding and Generation Gokcce Uludougan Zeynep Yirmibecsouglu Balal Furkan Akkurt Melikcsah Turker Onur Gungor S. Uskudarli 31 12 0 25 Jan 2024
DREQ: Document Re-Ranking Using Entity-based Query Understanding Shubham Chatterjee Iain Mackie Jeffery Dalton AI4TS 16 3 0 11 Jan 2024
OmniDialog: An Omnipotent Pre-training Model for Task-Oriented Dialogue System Mingtao Yang See-Kiong Ng Jinlan Fu 18 1 0 28 Dec 2023
TurkishBERTweet: Fast and Reliable Large Language Model for Social Media Analysis Ali Najafi Onur Varol VLM 19 11 0 29 Nov 2023
P5: Plug-and-Play Persona Prompting for Personalized Response Selection Joosung Lee Min Sik Oh Donghun Lee 13 1 0 10 Oct 2023
Temporally-Adaptive Models for Efficient Video Understanding Ziyuan Huang Shiwei Zhang Liang Pan Zhiwu Qing Yingya Zhang Ziwei Liu Marcelo H. Ang 28 9 0 10 Aug 2023
Analysis of the Evolution of Advanced Transformer-Based Language Models: Experiments on Opinion Mining Nour Eddine Zekaoui Siham Yousfi Maryem Rhanoui M. Mikram 11 3 0 07 Aug 2023
Improving BERT with Hybrid Pooling Network and Drop Mask Qian Chen Wen Wang Qinglin Zhang Chong Deng Ma Yukun Siqi Zheng 15 0 0 14 Jul 2023
Improving Reading Comprehension Question Generation with Data Augmentation and Overgenerate-and-rank Nischal Ashok Kumar Nigel Fernandez Zichao Wang Andrew S. Lan RALM 11 11 0 15 Jun 2023
Object Detection with Transformers: A Review Tahira Shehzadi K. Hashmi D. Stricker Muhammad Zeshan Afzal ViT MU 13 27 0 07 Jun 2023
Towards Reliable Misinformation Mitigation: Generalization, Uncertainty, and GPT-4 Kellin Pelrine Anne Imouza Camille Thibault Meilina Reksoprodjo Caleb Gupta J. Christoph Jean-François Godbout Reihaneh Rabbany UQLM AI4CE 23 35 0 24 May 2023
InterFormer: Interactive Local and Global Features Fusion for Automatic Speech Recognition Zhibing Lai Tianren Zhang Qi Liu Xinyuan Qian Li-Fang Wei Songlu Chen Feng Chen Xu-Cheng Yin 35 2 0 24 May 2023
DetGPT: Detect What You Need via Reasoning Renjie Pi Jiahui Gao Shizhe Diao Rui Pan Hanze Dong ... Lewei Yao Jianhua Han Hang Xu Lingpeng Kong Tong Zhang Tong Zhang LRM LM&Ro 22 92 0 23 May 2023
ConvFormer: Parameter Reduction in Transformer Models for 3D Human Pose Estimation by Leveraging Dynamic Multi-Headed Convolutional Attention Alec Diaz-Arias Dmitriy Shin ViT 13 10 0 04 Apr 2023
TransCODE: Co-design of Transformers and Accelerators for Efficient Training and Inference Shikhar Tuli N. Jha 30 5 0 27 Mar 2023
EdgeTran: Co-designing Transformers for Efficient Inference on Mobile Edge Platforms Shikhar Tuli N. Jha 34 3 0 24 Mar 2023
Tweets Under the Rubble: Detection of Messages Calling for Help in Earthquake Disaster Cagri Toraman Izzet Emre Kucukkaya Oguzhan Ozcelik Umitcan Sahin 8 9 0 26 Feb 2023
Ankh: Optimized Protein Language Model Unlocks General-Purpose Modelling Ahmed Elnaggar Hazem Essam Wafaa Salah-Eldin Walid Moustafa Mohamed Elkerdawy Charlotte Rochereau B. Rost 153 84 0 16 Jan 2023
Efficient Pre-training of Masked Language Model via Concept-based Curriculum Masking Mingyu Lee Jun-Hyung Park Junho Kim Kang-Min Kim SangKeun Lee 8 12 0 15 Dec 2022
LMEC: Learnable Multiplicative Absolute Position Embedding Based Conformer for Speech Recognition Yuguang Yang Y. Pan Jingjing Yin Heng Lu 18 3 0 05 Dec 2022
End-to-End Entity Detection with Proposer and Regressor Xueru Wen Changjian Zhou Haotian Tang Luguang Liang Yu Jiang Hong Qi 3DV 14 1 0 19 Oct 2022
XDoc: Unified Pre-training for Cross-Format Document Understanding Jingye Chen Tengchao Lv Lei Cui Changrong Zhang Furu Wei 48 13 0 06 Oct 2022
E-Branchformer: Branchformer with Enhanced merging for speech recognition Kwangyoun Kim Felix Wu Yifan Peng Jing Pan Prashant Sridhar Kyu Jeong Han Shinji Watanabe 50 105 0 30 Sep 2022
OPAL: Ontology-Aware Pretrained Language Model for End-to-End Task-Oriented Dialogue Zhi Chen Yuncong Liu Lu Chen Su Zhu Mengyue Wu Kai Yu 34 11 0 10 Sep 2022
MonaCoBERT: Monotonic attention based ConvBERT for Knowledge Tracing Unggi Lee Yonghyun Park Yujin Kim S. Choi Hyeoncheol Kim 11 7 0 19 Aug 2022
Unveiling Transformers with LEGO: a synthetic reasoning task Yi Zhang A. Backurs Sébastien Bubeck Ronen Eldan Suriya Gunasekar Tal Wagner LRM 25 85 0 09 Jun 2022
FlexiBERT: Are Current Transformer Architectures too Homogeneous and Rigid? Shikhar Tuli Bhishma Dedhia Shreshth Tuli N. Jha 9 14 0 23 May 2022
Predicting Human Psychometric Properties Using Computational Language Models Antonio Laverghetta Animesh Nighojkar Jamshidbek Mirzakhalov John Licato 16 7 0 12 May 2022
Gender Bias in Masked Language Models for Multiple Languages Masahiro Kaneko Aizhan Imankulova Danushka Bollegala Naoaki Okazaki 12 61 0 01 May 2022
COOL, a Context Outlooker, and its Application to Question Answering and other Natural Language Processing Tasks Fangyi Zhu See-Kiong Ng S. Bressan LRM 14 1 0 01 Apr 2022
ILDAE: Instance-Level Difficulty Analysis of Evaluation Data Neeraj Varshney Swaroop Mishra Chitta Baral 14 17 0 07 Mar 2022
Large-Scale Hate Speech Detection with Cross-Domain Transfer Cagri Toraman Furkan Şahinuç E. Yilmaz 19 58 0 02 Mar 2022
Short-answer scoring with ensembles of pretrained language models Christopher M. Ormerod 23 8 0 23 Feb 2022
Pretrained Language Models for Text Generation: A Survey Junyi Li Tianyi Tang Wayne Xin Zhao J. Nie Ji-Rong Wen AI4CE 26 124 0 14 Jan 2022
Sampling Equivariant Self-attention Networks for Object Detection in Aerial Images Guo-Ye Yang Xiang-Li Li Ralph Robert Martin Shimin Hu 3DPC 16 13 0 05 Nov 2021
Deciphering the Language of Nature: A transformer-based language model for deleterious mutations in proteins Theodore Jiang Li Fang Kai Wang MedIm 25 17 0 27 Oct 2021
A Comparative Study of Transformer-Based Language Models on Extractive Question Answering Kate Pearce Tiffany Zhan Aneesh Komanduri J. Zhan ELM 14 33 0 07 Oct 2021