预训练数据集

官网地址：https://www.cluebenchmarks.com/

数据地址：https://github.com/CLUEbenchmark/CLUE

100GB原始语料库的大规模预训练数据集

CLUE官方总共收集了214 GB的原始语料库，大约760亿个单词，包含三个部分，CLUECorpus2020-small，CLUECorpus2020和CLUEOSCAR。

CLUECorpus2020-small包含14 GB的中文语料库，包括四个子部分：新闻，网页文本，维基百科和评论。 CLUECorpus2020包含100 GB的中文原始语料库，该语料库可从Common Crawl中检索。这个数据集可以直接用于预训练，而无需其他预处理，包含约2万9千个单独的文件，每个文件都处理成了预训练格式。

CLUEOSCAR是一个庞大的多语种语料库，它是通过Common Crawl语料库的语言分类过滤得到的，包含250 GB的中文原始语料库，做进一步的处理后，最终得到100 GB的中文数据。

这部分数据可以用于LM的训练。