数据集:

stas/openwebtext-10k

英文

OpenWebText的10K切片 - OpenAI网站上WebText数据集的开源复制品。

这是原始数据集中的前10K条记录的一个小子集 - 用于测试。

完整的800万记录数据集是 here

$ python -c "from datasets import load_dataset; ds=load_dataset('stas/openwebtext-10k'); print(ds)"
DatasetDict({
    train: Dataset({
        features: ['text'],
        num_rows: 10000
    })
})
  • 记录数:10,000
  • 压缩后大小:约15MB
  • 未压缩大小:50MB

转换为jsonlines格式:

from datasets import load_dataset
dataset_name = "stas/openwebtext-10k"
name = dataset_name.split('/')[-1]
ds = load_dataset(dataset_name, split='train')
ds.to_json(f"{name}.jsonl", orient="records", lines=True)

要了解如何创建此子集的方法,请参阅 instructions file