本模型使用了GPT-3 的训练目标，同时使用能够更好地处理长序列建模的Transformer-XL 替代了GPT中的Transformer。模型的结构与GPT-3 2.7B（32层，隐表示维度2560，每层32个注意力头）基本相同，因为Transformer-XL的结构改动，模型参数增加到了29亿。

预训练模型大小：5.3G

GPT2 for Multiple Languages

https://github.com/imcaspar/gpt2-ml

训练数据15G

预训练模型大小：15亿参数量（5G大小）

albert_zh

https://github.com/brightmart/albert_zh

tf版本

预训练模型大小：4M参数量

albert_pytorch

https://github.com/lonePatient/albert_pytorch

pytorch版本

OpenCLaP：多领域开源中文预训练语言模型仓库

https://github.com/thunlp/OpenCLaP

数据来源法律文本和百度百科

Bert模型大小370MB

好未来开源教育领域首个在线教学中文预训练模型TAL-EduBERT

https://github.com/tal-tech/edu-bert

数据2000万条（约包含3.8亿Tokens）教育领域中文ASR文本数据

BERT 预训练模型大小：400M