数据集:
fquad
语言:
计算机处理:
monolingual大小:
1K<n<10K批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:2002.06071许可:
FQuAD: 法语问答数据集我们介绍了FQuAD,一个法语问答数据集。
FQuAD包含了超过25,000个问题和答案对。在FQuAD上使用CamemBERT进行微调,可以获得88%的F1分数和77.9%的精确匹配度。该数据集旨在提供与法语语言中的SQuAD相当的任务。问题是原创的,基于高质量的维基百科文章。
请注意,本数据集仅用于非商业目的,用户必须同意以下条款和条件:
请手动请求从以下地址下载数据: https://fquad.illuin.tech/
此数据集仅限法语,其中上下文数据来自维基百科,问题来自法国大学生(fr)。
'validation'的一个示例如下所示。
This example was too long and was cropped:
{
"answers": {
"answers_starts": [161, 46, 204],
"texts": ["La Vierge aux rochers", "documents contemporains", "objets de spéculations"]
},
"context": "\"Les deux tableaux sont certes décrits par des documents contemporains à leur création mais ceux-ci ne le font qu'indirectement ...",
"questions": ["Que concerne principalement les documents ?", "Par quoi sont décrit les deux tableaux ?", "Quels types d'objets sont les deux tableaux aux yeux des chercheurs ?"]
}
所有拆分的数据字段相同。
默认FQuAD数据集有3个拆分: train , validation ,和 test 。但是目前尚未公开发布 test 拆分。这些拆分包含不重叠的文章集合。下表包含每个拆分的统计信息。
| Dataset Split | Number of Articles in Split | Number of paragraphs in split | Number of questions in split |
|---|---|---|---|
| Train | 117 | 4921 | 20731 |
| Validation | 768 | 51.0% | 3188 |
| Test | 10 | 532 | 2189 |
FQuAD数据集由Illuin Technology创建。它旨在提供与法语语言中SQuAD相当的任务。问题是原创的,基于高质量的维基百科文章。
上下文中使用的文本来自经过筛选的法语高质量维基百科列表 articles 。
注释(跨度和问题)由法国CentraleSupélec工程学院的学生编写。维基百科文章经过抓取,并且Illuin使用了一种内部开发的工具来帮助注释者提出问题并指示答案跨度。注释者被提供了段落大小的上下文,并被要求根据上下文中的信息产生4/5个非平凡的问题。
此数据集中不包含个人或敏感信息。数据集策划者已经进行了手动验证。
用户应该考虑到这个数据集是从维基百科数据中取样的,可能不代表所有问答使用案例。
尚未调查此数据集的社会偏见。
尚未调查此数据集的社会偏见,尽管文章是根据其质量和客观性进行选择的。
尚未调查FQuAD数据集的局限性。
Illuin Technology: https://fquad.illuin.tech/
FQuAD数据集根据 CC BY-NC-SA 3.0 许可。
它允许个人和学术研究使用该数据集,但不允许商业使用。因此,对于这种商业用途,我们邀请FQuAD用户联系 the authors 讨论可能的合作伙伴关系。
@ARTICLE{2020arXiv200206071
author = {Martin, d'Hoffschmidt and Maxime, Vidal and
Wacim, Belblidia and Tom, Brendlé},
title = "{FQuAD: French Question Answering Dataset}",
journal = {arXiv e-prints},
keywords = {Computer Science - Computation and Language},
year = "2020",
month = "Feb",
eid = {arXiv:2002.06071},
pages = {arXiv:2002.06071},
archivePrefix = {arXiv},
eprint = {2002.06071},
primaryClass = {cs.CL}
}
感谢 @thomwolf , @mariamabarham , @patrickvonplaten , @lewtun , @albertvillanova 添加了该数据集。感谢 @ManuelFay 提供了关于数据集创建过程的信息。