数据集:
lmqg/qg_dequad
任务:
子任务:
language-modeling语言:
计算机处理:
monolingual大小:
10K<n<100K源数据集:
deepset/germanquad预印本库:
arxiv:2210.03992许可:
这是一个来自统一的问题生成基准数据集 QG-Bench 的子集。它是用于问题生成(QG)任务的 GermanQuAD 的修改版本。由于原始数据集只包含训练/验证集,我们从训练集中手动采样了测试集,测试集与训练集在段落上没有重叠。
西班牙语(es)
"train" 的示例如下所示。
{
'answer': 'elektromagnetischer Linearführungen',
'question': 'Was kann den Verschleiß des seillosen Aufzuges minimieren?',
'sentence': 'Im Rahmen der Forschungen an dem seillosen Aufzug wird ebenfalls an der Entwicklung elektromagnetischer Linearführungen gearbeitet, um den Verschleiß der seillosen Aufzugsanlage bei hohem Fahrkomfort zu minimieren.',
'paragraph': "Aufzugsanlage\n\n=== Seilloser Aufzug ===\nAn der RWTH Aachen im Institut für Elektrische Maschinen wurde ein seilloser Aufzug entwickelt und ein Prototyp aufgebaut. Die Kabine wird hierbei durch z..."
'sentence_answer': "Im Rahmen der Forschungen an dem seillosen Aufzug wird ebenfalls an der Entwicklung <hl> elektromagnetischer Linearführungen <hl> gearbeitet, um den Verschleiß der seillosen Aufzugsanlage bei...",
'paragraph_answer': "Aufzugsanlage === Seilloser Aufzug === An der RWTH Aachen im Institut für Elektrische Maschinen wurde ein seilloser Aufzug entwickelt und ein Prototyp aufgebaut. Die Kabine wird hierbei durc...",
'paragraph_sentence': "Aufzugsanlage === Seilloser Aufzug === An der RWTH Aachen im Institut für Elektrische Maschinen wurde ein seilloser Aufzug entwickelt und ein Prototyp aufgebaut. Die Kabine wird hierbei du..."
}
所有拆分的数据字段相同。
每个段落回答、段落句子和句子回答特征都被假设用于训练问题生成模型,但包含不同的信息。段落回答和句子回答特征用于基于答案的问题生成,段落句子特征用于基于句子的问题生成。
| train | validation | test |
|---|---|---|
| 9314 | 2204 | 2204 |
@inproceedings{ushio-etal-2022-generative,
title = "{G}enerative {L}anguage {M}odels for {P}aragraph-{L}evel {Q}uestion {G}eneration",
author = "Ushio, Asahi and
Alva-Manchego, Fernando and
Camacho-Collados, Jose",
booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
month = dec,
year = "2022",
address = "Abu Dhabi, U.A.E.",
publisher = "Association for Computational Linguistics",
}