英文

JGLUE 数据集卡片

数据集概述

来自 the official README.md

JGLUE (Japanese General Language Understanding Evaluation) 旨在衡量日语的通用自然语言理解能力。JGLUE是基于真实语料库构建的,并没有通过翻译的方式生成。我们希望JGLUE能够促进日语的自然语言理解研究。

JGLUE是由日本 Yahoo 公司和早稻田大学的川原实验室共同研究项目构建的。

支持的任务和排行榜

来自 the official README.md

JGLUE 包括文本分类、句对分类和问答等任务。每个任务包含多个数据集。

支持的任务和排行榜 MARC-ja

来自 the official README.md

MARC-ja 是一个文本分类任务的数据集。该数据集基于 Multilingual Amazon Reviews Corpus (MARC) 的日语部分( Keung+, 2020 )。

JSTS

来自 the official README.md

JSTS 是语义文本相似性任务 STS(Semantic Textual Similarity)的日语版本数据集。JSTS 和 JNLI(下面介绍)中的句子来自于 MS COCO 图片标题的日语版本数据集 the YJ Captions Dataset Miyazaki and Shimizu, 2016 )。

JNLI

来自 the official README.md

JNLI 是自然语言推理任务 NLI(Natural Language Inference)的日语版本数据集。NLI 任务是通过给定的前提句子和假设句子识别推理关系,推理关系包括蕴涵、矛盾和中立。

JSQUAD

来自 the official README.md

JSQUAD 是 SQuAD Rajpurkar+, 2018 )的日语版本数据集,是阅读理解任务中的一种。数据集中的每个实例包括一个针对给定上下文(维基百科文章)的问题和答案。JSQUAD 基于 SQuAD 1.1(没有不能回答的问题)。我们使用的数据是 20211101 的最新数据。

JCommonsenseQA

来自 the official README.md

JCommonsenseQA 是 CommonsenseQA Talmor+, 2019 )的日语版本数据集,它是一个需要常识推理能力的多选题问答数据集。该数据集是通过众包的方式从知识库 ConceptNet 中提取的种子数据。

排行榜

来自 the official README.md

排行榜将很快公开。届时将发布测试集。

语言

JGLUE 中的语言数据为日语( BCP-47 ja-JP )。

数据集结构

数据实例

加载特定配置时,用户必须添加一个与版本相关的后缀:

MARC-ja
from datasets import load_dataset

dataset = load_dataset("shunk031/JGLUE", name="MARC-ja")

print(dataset)
# DatasetDict({
#     train: Dataset({
#         features: ['sentence', 'label', 'review_id'],
#         num_rows: 187528
#     })
#     validation: Dataset({
#         features: ['sentence', 'label', 'review_id'],
#         num_rows: 5654
#     })
# })
JSTS
from datasets import load_dataset

dataset = load_dataset("shunk031/JGLUE", name="JSTS")

print(dataset)
# DatasetDict({
#     train: Dataset({
#         features: ['sentence_pair_id', 'yjcaptions_id', 'sentence1', 'sentence2', 'label'],
#         num_rows: 12451
#     })
#     validation: Dataset({
#         features: ['sentence_pair_id', 'yjcaptions_id', 'sentence1', 'sentence2', 'label'],
#         num_rows: 1457
#     })
# })

JSTS 数据集示例:

{
  "sentence_pair_id": "691",
  "yjcaptions_id": "127202-129817-129818",
  "sentence1": "街中の道路を大きなバスが走っています。 (A big bus is running on the road in the city.)", 
  "sentence2": "道路を大きなバスが走っています。 (There is a big bus running on the road.)", 
  "label": 4.4
}
JNLI
from datasets import load_dataset

dataset = load_dataset("shunk031/JGLUE", name="JNLI")

print(dataset)
# DatasetDict({
#     train: Dataset({
#         features: ['sentence_pair_id', 'yjcaptions_id', 'sentence1', 'sentence2', 'label'],
#         num_rows: 20073
#     })
#     validation: Dataset({
#         features: ['sentence_pair_id', 'yjcaptions_id', 'sentence1', 'sentence2', 'label'],
#         num_rows: 2434
#     })
# })

JNLI 数据集示例:

{
  "sentence_pair_id": "1157",
  "yjcaptions_id": "127202-129817-129818",
  "sentence1": "街中の道路を大きなバスが走っています。 (A big bus is running on the road in the city.)", 
  "sentence2": "道路を大きなバスが走っています。 (There is a big bus running on the road.)", 
  "label": "entailment"
}
JSQUAD
from datasets import load_dataset

dataset = load_dataset("shunk031/JGLUE", name="JSQuAD")

print(dataset)
# DatasetDict({
#     train: Dataset({
#         features: ['id', 'title', 'context', 'question', 'answers', 'is_impossible'],
#         num_rows: 62859
#     })
#     validation: Dataset({
#         features: ['id', 'title', 'context', 'question', 'answers', 'is_impossible'],
#         num_rows: 4442
#     })
# })

JSQUAD 数据集示例:

{
  "id": "a1531320p0q0", 
  "title": "東海道新幹線", 
  "context": "東海道新幹線 [SEP] 1987 年(昭和 62 年)4 月 1 日の国鉄分割民営化により、JR 東海が運営を継承した。西日本旅客鉄道(JR 西日本)が継承した山陽新幹線とは相互乗り入れが行われており、東海道新幹線区間のみで運転される列車にも JR 西日本所有の車両が使用されることがある。2020 年(令和 2 年)3 月現在、東京駅 - 新大阪駅間の所要時間は最速 2 時間 21 分、最高速度 285 km/h で運行されている。", 
  "question": "2020 年(令和 2 年)3 月現在、東京駅 - 新大阪駅間の最高速度はどのくらいか。", 
  "answers": {
    "text": ["285 km/h"], 
    "answer_start": [182]
  }, 
  "is_impossible": false
}
JCommonsenseQA
from datasets import load_dataset

dataset = load_dataset("shunk031/JGLUE", name="JCommonsenseQA")

print(dataset)
# DatasetDict({
#     train: Dataset({
#         features: ['q_id', 'question', 'choice0', 'choice1', 'choice2', 'choice3', 'choice4', 'label'],
#         num_rows: 8939
#     })
#     validation: Dataset({
#         features: ['q_id', 'question', 'choice0', 'choice1', 'choice2', 'choice3', 'choice4', 'label'],
#         num_rows: 1119
#     })
# })

JCommonsenseQA 数据集示例:

{
  "q_id": 3016,
  "question": "会社の最高責任者を何というか? (What do you call the chief executive officer of a company?)",
  "choice0": "社長 (president)",
  "choice1": "教師 (teacher)",
  "choice2": "部長 (manager)",
  "choice3": "バイト (part-time worker)",
  "choice4": "部下 (subordinate)",
  "label": 0
}

数据字段

MARC-ja
  • sentence_pair_id:句对的标识符
  • yjcaptions_id:yjcaptions 中的句子标识符(下面解释)
  • sentence1:第一个句子
  • sentence2:第二个句子
  • label:句子相似度,取值范围为 0(完全不同的含义)到 5(完全相同的含义)
yjcaptions_id 解释来源

来自 the official README.md ,存在以下两种情况:

  • 一个图像中的句对:(图像标识符)-(句子1标识符)-(句子2标识符)
    • 例如,723-844-847
    • 以“g”开头的句子标识符表示由众包工作者生成的句子(例如,69501-75698-g103):仅适用于 JNLI
  • 两个图像中的句对:(句子1的图像标识符)_(句子2的图像标识符)-(句子1标识符)-(句子2标识符)
    • 例如,91337_217583-96105-91680
  • JNLI
    • sentence_pair_id:句对的标识符
    • yjcaptions_id:yjcaptions 中的句子标识符
    • sentence1:前提句子
    • sentence2:假设句子
    • label:推理关系
    JSQUAD
    • title:维基百科文章的标题
    • paragraphs:一个段落集合
    • qas:问题和答案的集合
    • question:问题
    • id:问题的标识符
    • answers:一组答案
    • text:答案文本
    • answer_start:起始位置(字符索引)
    • is_impossible:所有值都为假
    • context:标题和段落的串联
    JCommonsenseQA
    • q_id:问题的标识符
    • question:问题
    • choice{0..4}:选择项
    • label:正确答案的标识符

    数据拆分

    来自 the official README.md

    目前只有训练集和开发集可用,测试集将在排行榜公开后发布。

    Task Dataset Train Dev Test
    Text Classification MARC-ja 187,528 5,654 5,639
    JCoLA† - - -
    Sentence Pair Classification JSTS 12,451 1,457 1,589
    JNLI 20,073 2,434 2,508
    Question Answering JSQuAD 62,859 4,442 4,420
    JCommonsenseQA 8,939 1,119 1,118

    †JCoLA 将很快添加。

    数据集创建

    策划理由

    来自 the original paper

    JGLUE 旨在涵盖广泛的 GLUE 和 SuperGLUE 任务,并包含文本分类、句对分类和问答等三类任务。

    来源数据

    初始数据收集和归一化处理

    [需要更多信息]

    谁是源语言制片人?
    • 源语言制作者为亚马逊的用户(MARC-ja)、雅虎众包的众包工作者(JSTS、JNLI 和 JCommonsenseQA),以及日语维基百科的作者(JSQUAD):

    注释

    MARC-ja 标注过程

    来自 the original paper

    作为文本分类数据集之一,我们基于 Multilingual Amazon Reviews Corpus (MARC) (Keung et al., 2020)构建了一个数据集。MARC 是一个由亚马逊购物网站上的产品评论组成的多语言语料库,评分范围为1到5级(星级评分)。该语料库包含英语和日语在内的六种语言。为了便于人和计算机判断类别标签,我们将文本分类任务转化为一个二分类任务,其中将1和2星级评分转换为“负面”,将4和5星级评分转换为“正面”。我们不使用3星级评分的评价。

    MARC 的一个问题是,有时评分与评论文本不一致。例如,正面内容的评论却被评为1或2星级。这些数据会降低我们数据集的质量。为了提高评估用于开发/测试的实例的质量,我们对约 12,000 条评论进行了正面/负面的众包判断任务。我们只采用由10个工作者中的7个或更多人提供相同投票的评论。我们将结果评论划分为开发和测试数据。

    通过上述过程,我们获得了 5,654 条开发数据和 5,639 条测试数据。对于训练数据,我们直接从 MARC 中提取了 187,528 个实例,没有执行清理过程,因为训练实例数量很大。MARC-ja 的统计数据列在表2中。对于 MARC-ja 的评估指标,我们使用准确性,因为它是一个文本的二分类任务。

    JSTS 和 JNLI 注释过程

    来自 the original paper

    对于句对分类数据集,我们构建了语义文本相似性 (STS) 数据集 JSTS 和自然语言推理 (NLI) 数据集 JNLI。

    概述

    STS 是一项估计句对之间语义相似度的任务。通常通过众包的方式将整数值 0(完全不同的含义)到 5(完全相同的含义)分配给多个工作者进行评估。

    NLI 是识别前提句子与假设句子之间推理关系的任务。推理关系通常由三个标签定义:“蕴涵”(entailment),“矛盾”(contradiction)和“中立”(neutral)。通常通过多个工作者回答后进行多数投票来确定金标签推理关系。

    对于 STS 和 NLI 任务,GLUE 中包含了 STS-B(Cer et al., 2017)和 MultiNLI(Williams et al., 2018)的数据集。作为日语数据集,JSNLI(Yoshikoshi et al., 2020)是 NLI 数据集 SNLI(Stanford NLI)的机器翻译版本,JSICK(Yanaka 和 Mineshima,2021)是 STS/NLI 数据集 SICK(Marelli et al., 2014)的人工翻译版本。正如前面提到的,这些数据集存在着来自于自动/手动翻译的问题。为了解决这个问题,我们从头开始构建了 STS/NLI 数据集。我们主要将 JSTS 和 JNLI 中的句子对从 MS COCO 图片标题的日语版本数据集(Chen et al., 2015)中提取出来。JSTS 和 JNLI 中的大部分句子对是重叠的,这样我们可以分析与 SICK 和 JSICK 类似的相同句子对的相似度和推理关系之间的关系。

    JSTS 中的相似度取值范围是0到5的实数,与 STS-B 类似。JNLI 中的推理关系取值范围与 SNLI 和 MultiNLI 中的相同三个标签保持一致。推理关系的定义也基于 SNLI。

    构建方法

    我们构建 JSTS 和 JNLI 的构建流程如图1所示。基本上,我们使用 YJ Captions 的同一图像的两个标题作为句子对。对这些句子对,我们通过众包获得相似度和蕴含关系以及中立关系。然而,从相同图像的标题中收集低相似度和矛盾关系的句子对是困难的。为了解决这个问题,我们从不同图像的标题中收集低相似度的句子对,并通过要求众包工作者为给定标题编写矛盾句子来收集矛盾关系。

    JSTS 和 JNLI 的详细构建过程如下:

  • 我们通过 YJ Captions 中的两个标题进行 STS 任务众包。我们要求五名众包工作者回答两个标题之间的相似度,并计算平均值作为金标准相似度。我们删除相似度答案差异较大的句子对,因为这样的句子对具有较差的答案质量。我们在 16,000 个句子对上进行了这个任务,删除了相似度方差大于等于 1.0 的句子对,最终获得具有金标准相似度的 10,236 个句子对。我们将此数据称为 JSTS-A。
  • 为了收集低相似度的句子对,我们使用不同图像的标题进行与第一步相同的 STS 任务。我们在 4,000 个句子对上进行了这个任务,获得了具有金标准相似度的 2,970 个句子对。我们将此数据称为 JSTS-B。
  • 对于 JSTS-A,我们进行 NLI 任务的众包。由于推理关系是有方向性的,我们在句子对中获取两个方向的推理关系。如前所述,从具有相同图像的 JSTS-A 中收集矛盾实例是困难的,因此我们在本步骤中只收集蕴涵和中立关系的实例。我们从 10 个工作者那里收集推理关系答案。如果六个或更多的人给出相同的答案,并且是蕴涵或中立关系,我们将采用它作为金标签。为了在 JSTS-A 中获得两个方向的推理关系,我们将此任务应用于两倍于 JSTS-A 的 20,472 个句子对上。结果,我们收集了 17,501 个句子对的推理关系。我们将此数据称为 JNLI-A。我们不使用 JSTS-B 进行 NLI 任务,因为在不同图像的标题之间定义和确定推理关系是困难的。
  • 为了收集矛盾的 NLI 实例,我们众包了一项任务,要求为 YJCaptions 中的每个标题撰写四个矛盾句子。我们从撰写的句子中删除编辑距离超过 0.75 的句子,以删除质量较低的句子,例如短句子和与原始句子关联性较低的句子。此外,我们进行了一个单向 NLI 任务,由 10 个工作者验证创建的句子对是否具有矛盾关系。只有至少有六个工作者答案为矛盾的句子对被采用。最后,我们通过自动分配矛盾关系来对采用的句子对进行矛盾关系分配。我们使用 1,800 个标题,获得了 7,200 个句子对,我们从其中采集了 3,779 个句子对,并为其分配了单向矛盾关系。通过自动分配相反方向的矛盾关系,我们将实例数量扩大到 7,558 个。我们将此数据称为 JNLI-C。
  • 对于在第 4 步中收集的 3,779 个句子对,我们进行 STS 任务的众包,将相似度分配值和过滤方式与步骤 1 和步骤 2 中相同。通过这种方式,我们从 3,779 个句子对中收集了 2,303 个具有金标准相似度的句子对。我们将此数据称为 JSTS-C。
  • JSQUAD

    来自 the original paper

    作为问答数据集,我们构建了 SQuAD(Rajpurkar et al., 2016)的日语版本,这是阅读理解任务的数据集之一,以及 CommonsenseQA 的日语版本,下面将对其进行介绍。

    阅读理解是指阅读文档并回答相关问题的任务。在英语中,已经构建了许多阅读理解评估数据集,随后才有其他语言或多语言的数据集。

    在日语中,已经构建了一些与测验相关的阅读理解数据集(Suzukietal.,2018),以及与驾驶领域相关的数据集(Takahashi et al., 2019),但没有针对一般领域的数据集。我们使用维基百科构建了一个通用领域的数据集。构建过程基本上基于 SQuAD 1.1(Rajpurkar et al., 2016)。

    首先,为了从维基百科中提取高质量的文章,我们使用 Nayuki 进行评估,该工具根据维基百科中的超链接估计文章的质量。我们从排名前 10,000 的文章中随机选择了 822 篇文章。例如,这些文章包括“熊本县 (Kumamoto Prefecture)” 和 “法国料理 (French cuisine)”。

    接下来,我们将一篇文章分成段落,将每个段落展示给众包工作者,并要求他们提出可以回答该段落的问题和答案。图2显示了 JSQUAD 的示例。我们要求工作者为开发集和测试集各添加两个错选项,以使系统评估更加鲁棒。

    JCommonsenseQA

    来自 the original paper

    概述

    JCommonsenseQA 是 CommonsenseQA 的日语版本(Talmor et al., 2019),由五个选择项的问答组成,旨在评估常识推理能力。图3显示了 JCommonsenseQA 的示例。与 CommonsenseQA 类似,JCommonsenseQA 是通过众包方式构建的,其中使用了从知识库 ConceptNet(Speer et al., 2017)中提取的种子数据。

    构建方法

    JCommonsenseQA 的构建流程如图4所示。首先,我们从 ConceptNet 中收集包含一个源概念和三个与源概念具有相同关系的目标概念的问题集 (QSs)。然后,对于每个 QS,我们通过众包的方式进行如下两项任务:撰写一个问题,仅一个目标概念作为答案,并添加两个干扰项。我们在下面描述了 JCommonsenseQA 的详细构建过程,以展示它与 CommonsenseQA 的不同之处。

  • 我们从 ConceptNet 中收集日语的 QSs。CommonsenseQA 仅使用前向关系(源概念,关系,目标概念),排除了一般关系,如“RelatedTo”和“IsA”。JCommonsenseQA 同样使用由 22 个关系组成的集合,排除了一般关系,但关系的方向是双向的,以使问题更多样化。换句话说,我们还使用了关系的相反方向(源概念,关系−1,目标概念)。通过这样的设置,我们从包含日语源/目标概念的数据中提取了 43,566 个 QSs,并从中随机选择了 7,500 个。
  • CommonsenseQA 的一些低质量问题包含可以被认为是答案的干扰项。为了提高干扰项的质量,我们添加了以下两个在 CommonsenseQA 中没有采用的步骤。首先,如果一个 QS 的三个目标概念包含拼写变体或同义词,则移除该 QS。为了识别拼写变体,我们使用形态学词典Juman Dic的词ID。其次,我们众包了一个判断目标概念是否包含同义词的任务。结果,我们从 7,500 个 QSs 中采用了 5,920 个。
  • 对于每个 QS,我们众包一个任务,要求撰写一个只有一个目标概念作为答案的问题句子。在图4所示的示例中,“駅(station)”是一个答案,其他选项是干扰项。为删除低质量的问题句子,我们去除了以下问题句子:
    • 包含选择词的问题句子(这是因为这样的问题很容易解决);
    • 包含表达式“XX characters”(XX 是一个数字)的问题句子;
    • 格式不正确的问题句子,不以“?”结束;
    结果,我们创建了 5,920 × 3 = 17,760 个问题句子,经过去除不适当的问题句子,我们采用了 15,310 个。
  • 在 CommonsenseQA 中,当添加干扰项时,会从 ConceptNet 中选择一个,另一个则通过众包方式创建。在 JCommonsenseQA 中,为了获得更多样化的干扰项,我们选择了两个干扰项都通过众包创建,而不是从 ConceptNet 中选择。为了提高问题的质量,我们删除了以下类型的问题:
    • 干扰项包含问题句子;
    • 干扰项与现有答案之一重叠;
    最终,我们从 15,310 个问题中添加了干扰项,其中采用了 13,906 个。
  • 对于每个问题,我们邀请三个众包工作者回答,并只采用至少有两个工作者回答正确的答案。结果,我们采用了 11,263 个问题。
  • 注释者是谁?

    来自 the official README.md

    我们在构建数据集的所有众包任务中使用了 Yahoo! 众包。

    个人隐私信息

    [需要更多信息]

    使用数据时的注意事项

    数据集的社会影响

    来自 the original paper

    我们从头开始构建了一个日语 NLU 基准数据集 JGLUE,旨在衡量日语的通用自然语言理解能力。我们希望 JGLUE 能够促进日语的自然语言理解研究。

    偏见讨论

    [需要更多信息]

    其他已知限制

    [需要更多信息]

    其他信息

    数据集创建者

    MARC-ja
    • Keung, Phillip, et al. "The Multilingual Amazon Reviews Corpus." Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.
    JSTS 和 JNLI
    • Miyazaki, Takashi, and Nobuyuki Shimizu. "Cross-lingual image caption generation." Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2016.
    JSQUAD

    作者从日语维基百科转化了 JSQUAD 中的原始数据。

    JCommonsenseQA

    JCommonsenseQA 与 CommonsenseQA 类似,是通过众包方式和来自知识库 ConceptNet 的种子数据构建的。

    许可信息

    本作品采用创作共用署名-相同方式共享 4.0 国际许可协议授权。

    引用信息

    @inproceedings{kurihara-etal-2022-jglue,
        title = "{JGLUE}: {J}apanese General Language Understanding Evaluation",
        author = "Kurihara, Kentaro  and
          Kawahara, Daisuke  and
          Shibata, Tomohide",
        booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference",
        month = jun,
        year = "2022",
        address = "Marseille, France",
        publisher = "European Language Resources Association",
        url = "https://aclanthology.org/2022.lrec-1.317",
        pages = "2957--2966",
        abstract = "To develop high-performance natural language understanding (NLU) models, it is necessary to have a benchmark to evaluate and analyze NLU ability from various perspectives. While the English NLU benchmark, GLUE, has been the forerunner, benchmarks are now being released for languages other than English, such as CLUE for Chinese and FLUE for French; but there is no such benchmark for Japanese. We build a Japanese NLU benchmark, JGLUE, from scratch without translation to measure the general NLU ability in Japanese. We hope that JGLUE will facilitate NLU research in Japanese.",
    }
    
    @InProceedings{Kurihara_nlp2022,
      author = 	"栗原健太郎 and 河原大輔 and 柴田知秀",
      title = 	"JGLUE: 日本語言語理解ベンチマーク",
      booktitle = 	"言語処理学会第 28 回年次大会",
      year =	"2022",
      url = "https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/E8-4.pdf"
      note= "in Japanese"
    }
    

    贡献

    感谢 Kentaro Kurihara Daisuke Kawahara Tomohide Shibata 创建了该数据集。