数据集:

musabg/wikipedia-tr-summarization

语言:

tr

大小:

100K<n<1M
中文

Wikipedia Turkish Summarization Dataset

Dataset Description

This is a Turkish summarization dataset 🇹🇷 prepared from the 2023 Wikipedia dump. The dataset has been cleaned, tokenized, and summarized using Huggingface Wikipedia dataset cleaner script, custom cleaning scripts, and OpenAI's gpt3.5-turbo API.

Data Source

  • Wikipedia's latest Turkish dump (2023 version) 🌐

Features

  • text: string (The original text extracted from Wikipedia articles 📖)
  • summary: string (The generated summary of the original text 📝)

Data Splits

Split Num Bytes Num Examples
train 324,460,408.048 119,110
validation 17,077,006.952 6,269

Download Size

  • 216,029,002 bytes

Dataset Size

  • 341,537,415 bytes

Data Preparation

Data Collection

  • The latest Turkish Wikipedia dump was downloaded 📥.
  • Huggingface Wikipedia dataset cleaner script was used to clean the text 🧹.
  • A custom script was used to further clean the text, removing sections like "Kaynakca" (References) and other irrelevant information 🛠️.
  • Tokenization

    The dataset was tokenized using Google's MT5 tokenizer. The following criteria were applied:

    • Articles with a token count between 300 and 900 were selected ✔️.
    • Articles with less than 300 tokens were ignored ❌.
    • For articles with more than 900 tokens, only the first 900 tokens ending with a paragraph were selected 🔍.

    Summarization

    The generated raw texts were summarized using OpenAI's gpt3.5-turbo API 🤖.

    Dataset Usage

    This dataset can be used for various natural language processing tasks 👩‍💻, such as text summarization, machine translation, and language modeling in the Turkish language.

    Example usage:

    from datasets import load_dataset
    
    # Load the dataset
    dataset = load_dataset("musabg/wikipedia-tr-summarization")
    
    # Access the data
    train_data = dataset["train"]
    validation_data = dataset["validation"]
    
    # Iterate through the data
    for example in train_data:
      text = example["text"]
      summary = example["summary"]
      # Process the data as needed
    

    Please make sure to cite the dataset as follows 📝:

    @misc{musabg2023wikipediatrsummarization,
      author = {Musab Gultekin},
      title = {Wikipedia Turkish Summarization Dataset},
      year = {2023},
      publisher = {HuggingFace},
      howpublished = {\url{https://huggingface.co/datasets/musabg/wikipedia-tr-summarization}},
    }
    

    Wikipedia Türkçe Özetleme Veri Seti

    Bu, 2023 Wikipedia dökümünden hazırlanan Türkçe özetleme veri kümesidir. Veri kümesi, Huggingface Wikipedia veri kümesi temizleme betiği, özel temizleme betikleri ve OpenAI'nin gpt3.5-turbo API'si kullanılarak temizlenmiş, tokenleştirilmiş ve özetlenmiştir.

    Veri Kaynağı

    • Wikipedia'nın en güncel Türkçe dökümü (2023 sürümü)

    Özellikler

    • text: string (Wikipedia makalelerinden çıkarılan orijinal metin)
    • summary: string (Orijinal metnin oluşturulan özeti)

    Veri Bölümleri

    Bölüm Numara Baytı Örnek Sayısı
    train 324.460.408,048 119.110
    validation 17.077.006,952 6.269

    İndirme Boyutu

    • 216.029.002 bayt

    Veri Kümesi Boyutu

    • 341.537.415 bayt

    Veri Hazırlama

    Veri Toplama

  • En güncel Türkçe Wikipedia dökümü indirildi.
  • Huggingface Wikipedia veri kümesi temizleme betiği metni temizlemek için kullanıldı.
  • "Kaynakça" (Referanslar) gibi bölümleri ve diğer alakasız bilgileri kaldırmak için özel bir betik kullanıldı.
  • Tokenleştirme

    Veri kümesi, Google'ın MT5 tokenleştiricisi kullanılarak tokenleştirildi. Aşağıdaki kriterler uygulandı:

    • 300 ile 900 token arasında olan makaleler seçildi.
    • 300'den az tokeni olan makaleler dikkate alınmadı.
    • 900'den fazla tokeni olan makalelerde, sadece bir paragraf ile biten ilk 900 token kısmı alındı.

    Özetleme

    Oluşturulan ham metinler, OpenAI'nin gpt3.5-turbo API'si kullanılarak özetlendi.

    Veri Kümesi Kullanımı

    Bu veri kümesi, Türkçe dilinde metin özetleme, makine çevirisi ve dil modelleme gibi çeşitli doğal dil işleme görevleri için kullanılabilir.

    Örnek kullanım:

    from datasets import load_dataset
    
    # Veri kümesini yükle
    dataset = load_dataset("musabg/wikipedia-tr-summarization")
    
    # Verilere erişin
    train_data = dataset["train"]
    validation_data = dataset["validation"]
    
    # Verilerin üzerinden geçin
    for example in train_data:
      text = example["text"]
      summary = example["summary"]
      # Veriyi gerektiği gibi işleyin