数据集:

sberquad

任务:

问答

子任务:

extractive-qa

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found crowdsourced

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1912.09723

许可:

license:unknown

数据集介绍文件清单

英文

sberquad 数据集卡片

数据集概述

Sber 问答数据集（SberQuAD）是一个阅读理解数据集，由众包工作者在一组维基百科文章上提出问题，每个问题的答案是相应阅读段落中的一段文本或片段，或者问题可能无法回答。俄语原始模型在2017年的 Sberbank 数据科学之旅中呈现。

支持的任务和排行榜

[需要更多信息]

语言

俄语

数据集结构

数据实例

{
    "context": "Первые упоминания о строении человеческого тела встречаются в Древнем Египте...",
    "id": 14754,
    "qas": [
        {
            "id": 60544,
            "question": "Где встречаются первые упоминания о строении человеческого тела?",
            "answers": [{"answer_start": 60, "text": "в Древнем Египте"}],
        }
    ]
}

数据字段

id：一个 int32 特征
标题：一个字符串特征
上下文：一个字符串特征
问题：一个字符串特征
答案：一个包含的字典特征：
- 文本：一个字符串特征
- 答案开始位置：一个 int32 特征

数据拆分

name	train	validation	test
plain_text	45328	5036	23936

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言生产者是谁？

[需要更多信息]

注解

注解过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@InProceedings{sberquad,
doi       = {10.1007/978-3-030-58219-7_1},
author    = {Pavel Efimov and
             Andrey Chertok and
             Leonid Boytsov and
             Pavel Braslavski},
title     = {SberQuAD -- Russian Reading Comprehension Dataset: Description and Analysis},
booktitle = {Experimental IR Meets Multilinguality, Multimodality, and Interaction},
year      = {2020},
publisher = {Springer International Publishing},
pages     = {3--15}
}

贡献

感谢 @alenusch 添加此数据集。

作者:

佚名

数据集大小:

12.62 KB