数据集:

TigerResearch/pretrain_en

语言:

en

大小:

10M<n<100M

许可:

apache-2.0
英文

数据集卡片 - "pretrain_en"

Tigerbot pretrain数据的英文部分。

使用方式

import datasets

ds_sft = datasets.load_dataset('TigerResearch/pretrain_en')