预训练模型汇总

模型汇总

huggingface transformers 抱抱脸

https://github.com/huggingface/transformers

https://huggingface.co/models

transformer大全

找了几个模型比较小的:

albert-base-chinese-cluecorpussmall

albert_chinese_small

albert-base-v2

albert_chinese_tiny

albert_chinese_tiny

albert-tiny-chinese

albert_chinese_base

可以参考中文拼写纠错模型的任务

Awesome Pretrained Chinese NLP Models

https://github.com/lonePatient/awesome-pretrained-chinese-nlp-models

一个多个模型的汇总项目,挺全的

Chinese-Transformer-XL

https://github.com/THUDM/Chinese-Transformer-XL

智源研究院”文汇” 预训练模型Chinese-Transformer-XL的预训练和文本生成代码

本模型使用了智源研究院发布的中文预训练语料WuDaoCorpus 。具体地,我们使用了WuDaoCorpus中来自百度百科+搜狗百科(133G)、知乎(131G)、百度知道(38G)的语料,一共303GB数据。

本模型使用了GPT-3 的训练目标,同时使用能够更好地处理长序列建模的Transformer-XL 替代了GPT中的Transformer。模型的结构与GPT-3 2.7B(32层,隐表示维度2560,每层32个注意力头)基本相同,因为Transformer-XL的结构改动,模型参数增加到了29亿。

预训练模型大小:5.3G

GPT2 for Multiple Languages

https://github.com/imcaspar/gpt2-ml

训练数据15G

预训练模型大小:15亿参数量(5G大小)

albert_zh

https://github.com/brightmart/albert_zh

tf版本

预训练模型大小:4M参数量

albert_pytorch

https://github.com/lonePatient/albert_pytorch

pytorch版本

OpenCLaP:多领域开源中文预训练语言模型仓库

https://github.com/thunlp/OpenCLaP

数据来源法律文本和百度百科

Bert模型大小370MB

好未来开源教育领域首个在线教学中文预训练模型TAL-EduBERT

https://github.com/tal-tech/edu-bert

数据2000万条(约包含3.8亿Tokens)教育领域中文ASR文本数据

BERT 预训练模型大小:400M