这是一个来自2023年维基百科转储的土耳其摘要数据集🇹🇷。该数据集经过清洗、分词和使用Huggingface维基百科数据集清理脚本、自定义清理脚本和OpenAI的gpt3.5-turbo API生成摘要。
| Split | Num Bytes | Num Examples |
|---|---|---|
| train | 324,460,408.048 | 119,110 |
| validation | 17,077,006.952 | 6,269 |
使用Google的MT5分词器对数据集进行分词处理。应用了以下准则:
使用OpenAI的gpt3.5-turbo API生成原始文本的摘要🤖。
此数据集可用于多种自然语言处理任务👩💻,例如文本摘要、机器翻译和土耳其语言建模。
示例用法:
from datasets import load_dataset
# Load the dataset
dataset = load_dataset("musabg/wikipedia-tr-summarization")
# Access the data
train_data = dataset["train"]
validation_data = dataset["validation"]
# Iterate through the data
for example in train_data:
text = example["text"]
summary = example["summary"]
# Process the data as needed
请确保引用数据集时按照以下方式📝:
@misc{musabg2023wikipediatrsummarization,
author = {Musab Gultekin},
title = {Wikipedia Turkish Summarization Dataset},
year = {2023},
publisher = {HuggingFace},
howpublished = {\url{https://huggingface.co/datasets/musabg/wikipedia-tr-summarization}},
}
这是一个来自2023年维基百科转储的土耳其摘要数据集。该数据集经过清洗、分词和使用Huggingface维基百科数据集清理脚本、自定义清理脚本和OpenAI的gpt3.5-turbo API生成摘要。
| Bölüm | Numara Baytı | Örnek Sayısı |
|---|---|---|
| train | 324.460.408,048 | 119.110 |
| validation | 17.077.006,952 | 6.269 |
使用Google的MT5分词器对数据集进行分词处理。应用了以下准则:
使用OpenAI的gpt3.5-turbo API生成原始文本的摘要。
此数据集可用于多种自然语言处理任务,例如文本摘要、机器翻译和土耳其语言建模。
示例用法:
from datasets import load_dataset
# Veri kümesini yükle
dataset = load_dataset("musabg/wikipedia-tr-summarization")
# Verilere erişin
train_data = dataset["train"]
validation_data = dataset["validation"]
# Verilerin üzerinden geçin
for example in train_data:
text = example["text"]
summary = example["summary"]
# Veriyi gerektiği gibi işleyin