数据集:
stas/openwebtext-10k
OpenWebText的10K切片 - OpenAI网站上WebText数据集的开源复制品。
这是原始数据集中的前10K条记录的一个小子集 - 用于测试。
完整的800万记录数据集是 here 。
$ python -c "from datasets import load_dataset; ds=load_dataset('stas/openwebtext-10k'); print(ds)" DatasetDict({ train: Dataset({ features: ['text'], num_rows: 10000 }) })
转换为jsonlines格式:
from datasets import load_dataset dataset_name = "stas/openwebtext-10k" name = dataset_name.split('/')[-1] ds = load_dataset(dataset_name, split='train') ds.to_json(f"{name}.jsonl", orient="records", lines=True)
要了解如何创建此子集的方法,请参阅 instructions file 。