数据集:

stas/c4-en-10k

语言:

en

许可:

apache-2.0
英文

C4 EN 10K for testing

这是原始C4数据集的一个小子集,表示“en”子集的前10,000条记录,用于测试。这些记录在随机排序后被提取出来。

完整的1TB+数据集位于 https://huggingface.co/datasets/c4

$ python -c "from datasets import load_dataset; ds=load_dataset('stas/c4-en-10k'); print(ds)"
DatasetDict({
    train: Dataset({
        features: ['text'],
        num_rows: 10000
    })
})
  • 记录数:10,000
  • 压缩大小:6.4M
  • 解压缩大小:22M

转换为jsonlines的方法:

from datasets import load_dataset
dataset_name = "stas/c4-en-10k"
name = dataset_name.split('/')[-1]
ds = load_dataset(dataset_name, split='train')
ds.to_json(f"{name}.jsonl", orient="records", lines=True)

要了解如何创建这个子集,这是相关的 instructions file