数据集:

stas/oscar-en-10k

语言:

en

许可:

apache-2.0
英文

OSCAR EN 10K for testing

这是一个小的子集,表示原始OSCAR数据集的10K记录,即用于测试的“unshuffled_deduplicated_en”子集-在被洗牌后提取的记录。

全部超过1TB的数据集在 https://huggingface.co/datasets/oscar 处。

$ python -c "from datasets import load_dataset; ds=load_dataset('stas/oscar-en-10k'); print(ds)"
DatasetDict({
    train: Dataset({
        features: ['text'],
        num_rows: 10000
    })
})
  • 记录数:10,000
  • 压缩大小:约37MB
  • 未压缩大小:131MB

转换为jsonlines格式:

from datasets import load_dataset
dataset_name = "stas/oscar-en-10k"
name = dataset_name.split('/')[-1]
ds = load_dataset(dataset_name, split='train')
ds.to_json(f"{name}.jsonl", orient="records", lines=True)

要查看此子集是如何创建的,可以参考 instructions file 处。