数据集:
stas/c4-en-10k
语言:
许可:
这是原始C4数据集的一个小子集,表示“en”子集的前10,000条记录,用于测试。这些记录在随机排序后被提取出来。
完整的1TB+数据集位于 https://huggingface.co/datasets/c4 。
$ python -c "from datasets import load_dataset; ds=load_dataset('stas/c4-en-10k'); print(ds)" DatasetDict({ train: Dataset({ features: ['text'], num_rows: 10000 }) })
转换为jsonlines的方法:
from datasets import load_dataset dataset_name = "stas/c4-en-10k" name = dataset_name.split('/')[-1] ds = load_dataset(dataset_name, split='train') ds.to_json(f"{name}.jsonl", orient="records", lines=True)
要了解如何创建这个子集,这是相关的 instructions file 。