英文

IndoNLU 数据集卡片

数据集摘要

IndoNLU 基准是一套用于训练、评估和分析巴哈萨印度尼西亚语(印尼语)的自然语言理解系统的资源集合。IndoNLU 基准中包含了12个用于印尼语自然语言理解的数据集。

  • EmoT:从社交媒体平台Twitter收集的情感分类数据集。该数据集包括约4000条印尼口语的推文,涵盖五种不同的情感标签:愤怒、恐惧、快乐、爱和悲伤
  • SmSA:这是一个句子级情感分析数据集,收集自印尼多个在线平台上的评论和评价。该文本是通过网络爬取后由多名印尼语言学家进行注释构建的数据集。SmSA 数据集上有三种可能的情感:积极、负面和中立
  • CASA:一个基于方面的情感分析数据集,包含约1000条从多个印尼在线汽车平台收集的汽车评论。该数据集涵盖了汽车质量的六个方面。我们将任务定义为一个多标签分类任务,其中每个标签表示单个方面的情感,有三个可能的值:积极、负面和中立。
  • HoASA:一个基于方面的情感分析数据集,包含从酒店聚合平台 AiryRooms 收集的酒店评论。该数据集涵盖了酒店质量的十个不同方面。与CASA数据集类似,每个评论都用一个情感标签来标记每个方面的情感。每个情感标签有四个可能的情感类别:积极、负面、中立和积极-负面。积极-负面标签适用于包含同一方面的多种观点但针对不同对象的评论(例如,床和厕所的清洁度)
  • WReTE:Wikipedia修订编辑文本蕴含数据集包含从维基百科修订历史中构建的450个句子对。该数据集包含了句子对之间的二元语义关系。当第二个句子的含义可以从第一个句子中得出时,数据标记为entailed,否则标记为not entailed。
  • POSP:这是一个印度尼西亚词性标注(POS)数据集,收集自印度尼西亚新闻网站。该数据集包含约8000个句子和26个POS标记。POS标签遵循标准的 Indonesian Association of Computational Linguistics (INACL) POS Tagging Convention 标签集。
  • BaPOS:这是一个词性标注数据集,包含约1000个句子,收集自 PAN Localization Project 。在这个数据集中,每个单词都被标记为 23 POS tag classes 中的一个。这个基准中使用的数据切分遵循 Kurniawan and Aji (2018) 使用的实验设置。
  • TermA:这个跨度提取数据集是从酒店聚合平台 AiryRooms 收集的。该数据集包含成千上万条酒店评论,每条评论都包含对应方面的方面和情感词组的跨度标签。标签使用起始内外(IOB)标记表示,有两种标签:方面和情感。
  • KEPS:这个关键短语提取数据集包含了讨论银行产品和服务的推文,以印度尼西亚语书写。包含重要信息的短语被视为关键短语。文本可能包含一个或多个关键短语,因为重要短语可以位于不同的位置。该数据集遵循IOB块格式,表示关键短语的位置。
  • NERGrit:这个NER数据集取自 Grit-ID repository ,标签使用IOB块表示。该数据集包含三种命名实体标签:PERSON(人名)、PLACE(地点名称)和ORGANIZATION(组织名称)。
  • NERP:这个NER数据集(Hoesen 和 Purwarianti, 2018)包含从几家印尼新闻网站收集的文本。该数据集中有五个标签可用,PER(人名)、LOC(地名)、IND(产品或品牌名称)、EVT(事件名称)和FNB(食品和饮料名称)。与 TermA 数据集类似,NERP 数据集使用IOB块格式。
  • FacQA:FacQA 数据集的目标是从新闻文章的提供的短篇中找到问题的答案。FacQA 数据集的每一行包含一个问题、一个短篇和一个标签短语,该短语可以在相应的短篇中找到。问题分为六个类别:日期、地点、名称、组织、人物和数量。
  • 支持的任务和排行榜

    [需要更多信息]

    语言

    印尼语

    数据集结构

    数据实例

  • EmoT 数据集
  • 一个数据点由推特推文和标签组成。训练集中的一个示例如下:

    {
      'tweet': 'Ini adalah hal yang paling membahagiakan saat biasku foto bersama ELF #ReturnOfTheLittlePrince #HappyHeeChulDay'
      'label': 4,
    }
    
  • SmSA 数据集
  • 一个数据点由文本和标签组成。训练集中的一个示例如下:

    {
      'text': 'warung ini dimiliki oleh pengusaha pabrik tahu yang sudah puluhan tahun terkenal membuat tahu putih di bandung . tahu berkualitas , dipadu keahlian memasak , dipadu kretivitas , jadilah warung yang menyajikan menu utama berbahan tahu , ditambah menu umum lain seperti ayam . semuanya selera indonesia . harga cukup terjangkau . jangan lewatkan tahu bletoka nya , tidak kalah dengan yang asli dari tegal !'
      'label': 0,
    }
    
  • CASA 数据集
  • 一个数据点由句子和多标签特征、机器、其他、部分、价格和服务组成。训练集中的一个示例如下:

    {
      'sentence': 'Saya memakai Honda Jazz GK5 tahun 2014 ( pertama meluncur ) . Mobil nya bagus dan enak sesuai moto nya menyenangkan untuk dikendarai',
      'fuel': 1,
      'machine': 1,
      'others': 2,
      'part': 1,
      'price': 1,
      'service': 1
    }
    
  • HoASA 数据集
  • 一个数据点由句子和多标签 ac、air_panas、bau、general、kebersihan、linen、service、sunrise_meal、tv 和 wifi 组成。训练集中的一个示例如下:

    {
      'sentence': 'kebersihan kurang...',
      'ac': 1,
      'air_panas': 1,
      'bau': 1,
      'general': 1,
      'kebersihan': 0,
      'linen': 1,
      'service': 1,
      'sunrise_meal': 1,
      'tv': 1,
      'wifi': 1
    }
    
  • WreTE 数据集
  • 一个数据点由前提、假设、类别和标签组成。训练集中的一个示例如下:

    {
      'premise': 'Pada awalnya bangsa Israel hanya terdiri dari satu kelompok keluarga di antara banyak kelompok keluarga yang hidup di tanah Kanan pada abad 18 SM .',
      'hypothesis': 'Pada awalnya bangsa Yahudi hanya terdiri dari satu kelompok keluarga di antara banyak kelompok keluarga yang hidup di tanah Kanan pada abad 18 SM .'
      'category': 'menolak perubahan teks terakhir oleh istimewa kontribusi pengguna 141 109 98 87 141 109 98 87 dan mengembalikan revisi 6958053 oleh johnthorne',
      'label': 0,
    }
    
  • POSP 数据集
  • 一个数据点由词元和词性标签组成。训练集中的一个示例如下:

    {
      'tokens': ['kepala', 'dinas', 'tata', 'kota', 'manado', 'amos', 'kenda', 'menyatakan', 'tidak', 'tahu', '-', 'menahu', 'soal', 'pencabutan', 'baliho', '.', 'ia', 'enggan', 'berkomentar', 'banyak', 'karena', 'merasa', 'bukan', 'kewenangannya', '.'],
      'pos_tags': [11, 6, 11, 11, 7, 7, 7, 9, 23, 4, 21, 9, 11, 11, 11, 21, 3, 2, 4, 1, 19, 9, 23, 11, 21]
    }
    
  • BaPOS 数据集
  • 一个数据点由词元和词性标签组成。训练集中的一个示例如下:

    {
      'tokens': ['Kera', 'untuk', 'amankan', 'pesta', 'olahraga'],
      'pos_tags': [27, 8, 26, 27, 30]
    }
    
  • TermA 数据集
  • 一个数据点由词元和序列标签组成。训练集中的一个示例如下:

    {
      'tokens': ['kamar', 'saya', 'ada', 'kendala', 'di', 'ac', 'tidak', 'berfungsi', 'optimal', '.', 'dan', 'juga', 'wifi', 'koneksi', 'kurang', 'stabil', '.'],
      'seq_label': [1, 1, 1, 1, 1, 4, 3, 0, 0, 1, 1, 1, 4, 2, 3, 0, 1]
    }
    
  • KEPS 数据集
  • 一个数据点由词元和序列标签组成。训练集中的一个示例如下:

    {
      'tokens': ['Setelah', 'melalui', 'proses', 'telepon', 'yang', 'panjang', 'tutup', 'sudah', 'kartu', 'kredit', 'bca', 'Ribet'],
      'seq_label': [0, 1, 1, 2, 0, 0, 1, 0, 1, 2, 2, 1]
    }
    
  • NERGrit 数据集
  • 一个数据点由词元和NER标签组成。训练集中的一个示例如下:

    {
      'tokens': ['Kontribusinya', 'terhadap', 'industri', 'musik', 'telah', 'mengumpulkan', 'banyak', 'prestasi', 'termasuk', 'lima', 'Grammy', 'Awards', ',', 'serta', 'dua', 'belas', 'nominasi', ';', 'dua', 'Guinness', 'World', 'Records', ';', 'dan', 'penjualannya', 'diperkirakan', 'sekitar', '64', 'juta', 'rekaman', '.'],
      'ner_tags': [5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5]}
    
  • NERP 数据集
  • 一个数据点由词元和NER标签组成。训练集中的一个示例如下:

    {
      'tokens': ['kepala', 'dinas', 'tata', 'kota', 'manado', 'amos', 'kenda', 'menyatakan', 'tidak', 'tahu', '-', 'menahu', 'soal', 'pencabutan', 'baliho', '.', 'ia', 'enggan', 'berkomentar', 'banyak', 'karena', 'merasa', 'bukan', 'kewenangannya', '.'],
      'ner_tags': [9, 9, 9, 9, 2, 7, 0, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9]
    }
    
  • FacQA 数据集
  • 一个数据点由问题、短篇和序列标签组成。训练集中的一个示例如下:

    {
      'passage': ['Lewat', 'telepon', 'ke', 'kantor', 'berita', 'lokal', 'Current', 'News', 'Service', ',', 'Hezb-ul', 'Mujahedeen', ',', 'kelompok', 'militan', 'Kashmir', 'yang', 'terbesar', ',', 'menyatakan', 'bertanggung', 'jawab', 'atas', 'ledakan', 'di', 'Srinagar', '.'],
      'question': ['Kelompok', 'apakah', 'yang', 'menyatakan', 'bertanggung', 'jawab', 'atas', 'ledakan', 'di', 'Srinagar', '?'],
      'seq_label': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
    }
    

    数据字段

  • EmoT 数据集
    • tweet: 字符串特征。
    • label: 情感标签,可能的值包括 sadness、anger、love、fear、happy。
  • SmSA 数据集
    • text: 字符串特征。
    • label: 情感标签,可能的值包括 positive、neutral、negative。
  • CASA 数据集
    • sentence: 字符串特征。
    • fuel: 情感标签,可能的值包括 negative、neutral、positive。
    • machine: 情感标签,可能的值包括 negative、neutral、positive。
    • others: 情感标签,可能的值包括 negative、neutral、positive。
    • part: 情感标签,可能的值包括 negative、neutral、positive。
    • price: 情感标签,可能的值包括 negative、neutral、positive。
    • service: 情感标签,可能的值包括 negative、neutral、positive。
  • HoASA 数据集
    • sentence: 字符串特征。
    • ac: 情感标签,可能的值包括 neg、neut、pos、neg_pos。
    • air_panas: 情感标签,可能的值包括 neg、neut、pos、neg_pos。
    • bau: 情感标签,可能的值包括 neg、neut、pos、neg_pos。
    • general: 情感标签,可能的值包括 neg、neut、pos、neg_pos。
    • kebersihan: 情感标签,可能的值包括 neg、neut、pos、neg_pos。
    • linen: 情感标签,可能的值包括 neg、neut、pos、neg_pos。
    • service: 情感标签,可能的值包括 neg、neut、pos、neg_pos。
    • sunrise_meal: 情感标签,可能的值包括 neg、neut、pos、neg_pos。
    • tv: 情感标签,可能的值包括 neg、neut、pos、neg_pos。
    • wifi: 情感标签,可能的值包括 neg、neut、pos、neg_pos。
  • WreTE 数据集
    • premise: 字符串特征。
    • hypothesis: 字符串特征。
    • category: 字符串特征。
    • label: 分类标签,可能的值包括 NotEntail、Entail_or_Paraphrase。
  • POSP 数据集
    • tokens: 字符串特征列表。
    • pos_tags: 词性标签列表,可能的值包括 B-PPO、B-KUA、B-ADV、B-PRN、B-VBI。

    词性标签遵循 Indonesian Association of Computational Linguistics (INACL) POS Tagging Convention

  • BaPOS 数据集
    • tokens: 字符串特征列表。
    • pos_tags: 词性标签列表,可能的值包括 B-PR、B-CD、I-PR、B-SYM、B-JJ。

    词性标签来自 Tagset UI

  • TermA 数据集
    • tokens: 字符串特征列表。
    • seq_label: 分类标签列表,可能的值包括 I-SENTIMENT、O、I-ASPECT、B-SENTIMENT、B-ASPECT。
  • KEPS 数据集
    • tokens: 字符串特征列表。
    • seq_label: 分类标签列表,可能的值包括 O、B、I。

    标签使用起始内外(IOB)标记。

  • NERGrit 数据集
    • tokens: 字符串特征列表。
    • ner_tags: NER标签列表,可能的值包括 I-PERSON、B-ORGANISATION、I-ORGANISATION、B-PLACE、I-PLACE。

    标签使用起始内外(IOB)标记。

  • NERP 数据集
    • tokens: 字符串特征列表。
    • ner_tags: NER标签列表,可能的值包括 I-PPL、B-EVT、B-PLC、I-IND、B-IND。
  • FacQA 数据集
    • question: 字符串特征列表。
    • passage: 字符串特征列表。
    • seq_label: 分类标签列表,可能的值包括 O、B、I。

    数据拆分

    数据集被拆分为训练集、验证集和测试集。

    dataset Train Valid Test
    1 EmoT 3521 440 440
    2 SmSA 11000 1260 500
    3 CASA 810 90 180
    4 HoASA 2283 285 286
    5 WReTE 300 50 100
    6 POSP 6720 840 840
    7 BaPOS 8000 1000 1029
    8 TermA 3000 1000 1000
    9 KEPS 800 200 247
    10 NERGrit 1672 209 209
    11 NERP 6720 840 840
    12 FacQA 2495 311 311

    数据集创建

    策划理由

    [需要更多信息]

    来源数据

    初始数据采集和规范化

    [需要更多信息]

    谁是源语言的生产者?

    [需要更多信息]

    注释

    注释流程

    [需要更多信息]

    谁是注释者?

    [需要更多信息]

    个人和敏感信息

    [需要更多信息]

    使用数据的考虑事项

    数据的社会影响

    [需要更多信息]

    偏见讨论

    [需要更多信息]

    其他已知限制

    [需要更多信息]

    附加信息

    数据集维护者

    [需要更多信息]

    许可信息

    IndoNLU 基准数据集的许可状态为 MIT License。

    引用信息

    IndoNLU 数据集引用

    @inproceedings{wilie2020indonlu,
      title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
      author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
      booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
      year={2020}
    }
    

    EmoT 数据集引用

    @inproceedings{saputri2018emotion,
      title={Emotion Classification on Indonesian Twitter Dataset},
      author={Mei Silviana Saputri, Rahmad Mahendra, and Mirna Adriani},
      booktitle={Proceedings of the 2018 International Conference on Asian Language Processing(IALP)},
      pages={90--95},
      year={2018},
      organization={IEEE}
    }
    

    SmSA 数据集引用

    @inproceedings{purwarianti2019improving,
      title={Improving Bi-LSTM Performance for Indonesian Sentiment Analysis Using Paragraph Vector},
      author={Ayu Purwarianti and Ida Ayu Putu Ari Crisdayanti},
      booktitle={Proceedings of the 2019 International Conference of Advanced Informatics: Concepts, Theory and Applications (ICAICTA)},
      pages={1--5},
      year={2019},
      organization={IEEE}
    }
    

    CASA 数据集引用

    @inproceedings{ilmania2018aspect,
      title={Aspect Detection and Sentiment Classification Using Deep Neural Network for Indonesian Aspect-based Sentiment Analysis},
      author={Arfinda Ilmania, Abdurrahman, Samuel Cahyawijaya, Ayu Purwarianti},
      booktitle={Proceedings of the 2018 International Conference on Asian Language Processing(IALP)},
      pages={62--67},
      year={2018},
      organization={IEEE}
    }
    

    HoASA 数据集引用

    @inproceedings{azhar2019multi,
      title={Multi-label Aspect Categorization with Convolutional Neural Networks and Extreme Gradient Boosting},
      author={A. N. Azhar, M. L. Khodra, and A. P. Sutiono}
      booktitle={Proceedings of the 2019 International Conference on Electrical Engineering and Informatics (ICEEI)},
      pages={35--40},
      year={2019}
    }
    

    WReTE 数据集引用

    @inproceedings{setya2018semi,
      title={Semi-supervised Textual Entailment on Indonesian Wikipedia Data},
      author={Ken Nabila Setya and Rahmad Mahendra},
      booktitle={Proceedings of the 2018 International Conference on Computational Linguistics and Intelligent Text Processing (CICLing)},
      year={2018}
    }
    

    POSP 数据集引用

    @inproceedings{hoesen2018investigating,
      title={Investigating Bi-LSTM and CRF with POS Tag Embedding for Indonesian Named Entity Tagger},
      author={Devin Hoesen and Ayu Purwarianti},
      booktitle={Proceedings of the 2018 International Conference on Asian Language Processing (IALP)},
      pages={35--38},
      year={2018},
      organization={IEEE}
    }
    

    BaPOS 数据集引用

    @inproceedings{dinakaramani2014designing,
      title={Designing an Indonesian Part of Speech Tagset and Manually Tagged Indonesian Corpus},
      author={Arawinda Dinakaramani, Fam Rashel, Andry Luthfi, and Ruli Manurung},
      booktitle={Proceedings of the 2014 International Conference on Asian Language Processing (IALP)},
      pages={66--69},
      year={2014},
      organization={IEEE}
    }
    @inproceedings{kurniawan2018toward,
      title={Toward a Standardized and More Accurate Indonesian Part-of-Speech Tagging},
      author={Kemal Kurniawan and Alham Fikri Aji},
      booktitle={Proceedings of the 2018 International Conference on Asian Language Processing (IALP)},
      pages={303--307},
      year={2018},
      organization={IEEE}
    }
    

    TermA 数据集引用

    @article{winatmoko2019aspect,
      title={Aspect and Opinion Term Extraction for Hotel Reviews Using Transfer Learning and Auxiliary Labels},
      author={Yosef Ardhito Winatmoko, Ali Akbar Septiandri, Arie Pratama Sutiono},
      journal={arXiv preprint arXiv:1909.11879},
      year={2019}
    }
    @article{fernando2019aspect,
      title={Aspect and Opinion Terms Extraction Using Double Embeddings and Attention Mechanism for Indonesian Hotel Reviews},
      author={Jordhy Fernando, Masayu Leylia Khodra, Ali Akbar Septiandri},
      journal={arXiv preprint arXiv:1908.04899},
      year={2019}
    }
    

    KEPS 数据集引用

    @inproceedings{mahfuzh2019improving,
      title={Improving Joint Layer RNN based Keyphrase Extraction by Using Syntactical Features},
      author={Miftahul Mahfuzh, Sidik Soleman, and Ayu Purwarianti},
      booktitle={Proceedings of the 2019 International Conference of Advanced Informatics: Concepts, Theory and Applications (ICAICTA)},
      pages={1--6},
      year={2019},
      organization={IEEE}
    }
    

    NERGrit 数据集引用

    @online{nergrit2019,
      title={NERGrit Corpus},
      author={NERGrit Developers},
      year={2019},
      url={https://github.com/grit-id/nergrit-corpus}
    }
    

    NERP 数据集引用

    @inproceedings{hoesen2018investigating,
      title={Investigating Bi-LSTM and CRF with POS Tag Embedding for Indonesian Named Entity Tagger},
      author={Devin Hoesen and Ayu Purwarianti},
      booktitle={Proceedings of the 2018 International Conference on Asian Language Processing (IALP)},
      pages={35--38},
      year={2018},
      organization={IEEE}
    }
    

    FacQA 数据集引用

    @inproceedings{purwarianti2007machine,
      title={A Machine Learning Approach for Indonesian Question Answering System},
      author={Ayu Purwarianti, Masatoshi Tsuchiya, and Seiichi Nakagawa},
      booktitle={Proceedings of Artificial Intelligence and Applications },
      pages={573--578},
      year={2007}
    }
    

    贡献

    感谢 @yasirabd 添加此数据集。