Tiny LLM 数据处理

项目所采用的数据，都是开源数据集，大部分来自Hugging Face，详细数据集列表如下：

预训练数据

本次训练的预训练预料都来自Hugging Face，主要包含以下几个经典的中文数据集，大约有35B左右Token，详细数据集如下：

中文预训练语料	链接	描述
Wiki中文百科	wikipedia	中文Wikipedia的数据
BaiduBaiKe	baidubaike	中文BaiduBaiKe的数据
zhihu	zhihu	知乎KOL中截取的数据
网络小说	webnovel	个人爬虫数据清洗的数据
TigerBot 部分数据	tigerBot	TigerBot 模型训练的部分中文数据，原始数据太多了

上述数据处理脚本为，在处理时，Tokenizer后保存为可直接训练的二进制文件(.bin)。

注意：此处使用二进制文件保存，不需要考虑每个 max_seq_len 的长度，尽可能压缩存储空间。后续的SFT执行微调数据和RLHF数据集是较小，不需要提前保存为二进制文件。

SFT指令微调预料都来自Hugging Face，主要包含以下几个经典的SFT数据集，大约有400w条，详细数据集如下：