数据集:

range3/wikipedia-ja-20230101

英文

range3/wikipedia-ja-20230101

这个数据集是从维基百科数据集中提取的仅包含日语数据的parquet文件。它是通过以下Python代码生成的。

这个数据集是从维基百科数据集中提取的仅包含日语数据的parquet文件。它是通过以下Python代码生成的。

import datasets
dss = datasets.load_dataset(
    "wikipedia",
    language="ja",
    date="20230101",
    beam_runner="DirectRunner",
)

for split,ds in dss.items():
    ds.to_parquet(f"wikipedia-ja-20230101/{split}.parquet")