数据集:

indic_glue

任务:

文本分类

标记分类

多项选择

子任务:

topic-classification natural-language-inference sentiment-analysis

语言:

计算机处理:

multilingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

other

源数据集:

extended|other

其他:

discourse-mode-classification paraphrase-identification cross-lingual-similarity

许可:

other

数据集介绍文件清单

英文

"indic_glue" 数据集卡片

数据集摘要

IndicGLUE 是为印度语言提供的自然语言理解基准。它包含了各种任务，并涵盖了11种主要的印度语言 - as, bn, gu, hi, kn, ml, mr, or, pa, ta, te.

Winograd Schema 挑战 (Levesque et al., 2011) 是一个阅读理解任务，系统必须阅读一个带有代词的句子，并从一系列选择项中选择该代词的指代。这些示例是手动构建的，以阻碍简单的统计方法：每一个例子都依赖于由句子中的单个词或短语提供的上下文信息。为了将问题转化为句对分类，我们通过将不明确的代词替换为每个可能的指代来构造句对。该任务是预测替换了代词的句子是否由原始句子推出。我们使用了一个小规模的评估集，其中包含了从小说书籍中词私下共享的新概念。虽然包含的训练集在两个类之间平衡，但测试集在两个类之间不平衡（65% 不推出）。此外，由于一个数据特征，开发集是对抗性的：假设有时在训练和开发示例之间共享，所以如果一个模型记忆训练示例，它们将在相应的开发集示例上预测错误的标签。与 QNLI 一样，每个例子都是单独评估的，因此模型在该任务上的得分与其在未转化的原始任务上的得分之间没有系统的对应关系。我们将转化后的数据集称为 WNLI (Winograd NLI)。此数据集由 AI4Bharat 将其翻译并公开发布，供3种印度语言使用。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

actsa-sc.te

下载的数据集文件大小：0.38 MB
生成的数据集大小：1.71 MB
磁盘使用总量：2.09 MB

'validation' 的一个示例如下所示。

This example was too long and was cropped:

{
    "label": 0,
    "text": "\"ప్రయాణాల్లో ఉన్నవారికోసం బస్ స్టేషన్లు, రైల్వే స్టేషన్లలో పల్స్పోలియో బూతులను ఏర్పాటు చేసి చిన్నారులకు పోలియో చుక్కలు వేసేలా ఏర..."
}

bbca.hi

下载的数据集文件大小：5.77 MB
生成的数据集大小：27.63 MB
磁盘使用总量：33.40 MB

'train' 的一个示例如下所示。

This example was too long and was cropped:

{
    "label": "pakistan",
    "text": "\"नेटिजन यानि इंटरनेट पर सक्रिय नागरिक अब ट्विटर पर सरकार द्वारा लगाए प्रतिबंधों के समर्थन या विरोध में अपने विचार व्यक्त करते है..."
}

copa.en

下载的数据集文件大小：0.75 MB
生成的数据集大小：0.12 MB
磁盘使用总量：0.87 MB

'validation' 的一个示例如下所示。

{
    "choice1": "I swept the floor in the unoccupied room.",
    "choice2": "I shut off the light in the unoccupied room.",
    "label": 1,
    "premise": "I wanted to conserve energy.",
    "question": "effect"
}

copa.gu

下载的数据集文件大小：0.75 MB
生成的数据集大小：0.23 MB
磁盘使用总量：0.99 MB

'train' 的一个示例如下所示。

This example was too long and was cropped:

{
    "choice1": "\"સ્ત્રી જાણતી હતી કે તેનો મિત્ર મુશ્કેલ સમયમાંથી પસાર થઈ રહ્યો છે.\"...",
    "choice2": "\"મહિલાને લાગ્યું કે તેના મિત્રએ તેની દયાળુ લાભ લીધો છે.\"...",
    "label": 0,
    "premise": "મહિલાએ તેના મિત્રની મુશ્કેલ વર્તન સહન કરી.",
    "question": "cause"
}

copa.hi

下载的数据集文件大小：0.75 MB
生成的数据集大小：0.23 MB
磁盘使用总量：0.99 MB

'validation' 的一个示例如下所示。

{
    "choice1": "मैंने उसका प्रस्ताव ठुकरा दिया।",
    "choice2": "उन्होंने मुझे उत्पाद खरीदने के लिए राजी किया।",
    "label": 0,
    "premise": "मैंने सेल्समैन की पिच पर शक किया।",
    "question": "effect"
}

数据字段

所有分组中的数据字段都是相同的。

actsa-sc.te

text : 一个字符串特征。
label : 一个分类标签，可选值包括 positive (0), negative (1)。

bbca.hi

label : 一个字符串特征。
text : 一个字符串特征。

copa.en

premise : 一个字符串特征。
choice1 : 一个字符串特征。
choice2 : 一个字符串特征。
question : 一个字符串特征。
label : 一个 int32 特征。

copa.gu

premise : 一个字符串特征。
choice1 : 一个字符串特征。
choice2 : 一个字符串特征。
question : 一个字符串特征。
label : 一个 int32 特征。

copa.hi

premise : 一个字符串特征。
choice1 : 一个字符串特征。
choice2 : 一个字符串特征。
question : 一个字符串特征。
label : 一个 int32 特征。

数据集划分

actsa-sc.te

train	validation	test
actsa-sc.te	4328	541	541

bbca.hi

train	test
bbca.hi	3467	866

copa.en

train	validation	test
copa.en	400	100	500

copa.gu

train	validation	test
copa.gu	362	88	448

copa.hi

train	validation	test
copa.hi	362	88	449

数据集创建

策划理由

More Information Needed

来源数据

初始数据收集和规范化

More Information Needed

谁是源语言的生产者？

More Information Needed

标注

标注过程

More Information Needed

谁是标注者？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的考虑事项

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@inproceedings{kakwani-etal-2020-indicnlpsuite,
    title = "{I}ndic{NLPS}uite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for {I}ndian Languages",
    author = "Kakwani, Divyanshu  and
      Kunchukuttan, Anoop  and
      Golla, Satish  and
      N.C., Gokul  and
      Bhattacharyya, Avik  and
      Khapra, Mitesh M.  and
      Kumar, Pratyush",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.445",
    doi = "10.18653/v1/2020.findings-emnlp.445",
    pages = "4948--4961",
}

@inproceedings{Levesque2011TheWS,
title={The Winograd Schema Challenge},
author={H. Levesque and E. Davis and L. Morgenstern},
booktitle={KR},
year={2011}
}

贡献者

感谢 @sumanthd17 添加此数据集。

作者:

佚名

数据集大小:

325.55 MB

"indic_glue" 数据集卡片

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据集划分

数据集创建

策划理由

来源数据

标注

个人和敏感信息

使用数据的考虑事项

数据的社会影响

偏见讨论

其他已知限制

其他信息

数据集策划者

许可信息

引用信息

贡献者