数据集:

debatelab/deepa2

任务:

文本检索

文本生成

子任务:

text-simplification parsing

语言:

计算机处理:

monolingual

大小:

size_categories:unknown

语言创建人:

other

预印本库:

arxiv:2110.01509

其他:

argument-mining summarization conditional-text-generation

许可:

other

数据集介绍文件清单

英文

deepa2 数据集收集

数据集概述

这是一个不断增长的、精心策划的 deepa2 数据集收集，即包含对论证性文本进行全面逻辑分析的数据集。这个收集包含以下内容：

通过 deepa2 bake 工具从现有 NLP 数据集构建的数据集。
专门为这个收集创建的原始 deepa2 数据集。

可以使用 deepa2 serve 工具将此收集中的数据渲染为文本到文本的示例。

支持的任务和榜单

对于为该数据集标注任务的每个任务，简要描述标签、指标和建议的模型（如果有的话，附带到其 HuggingFace 实现的链接）。对于未包括在结构化标签集中的任务，给出类似的描述（将 task-category-tag 替换为适当的 other:other-task-name）。

条件文本生成：数据集可用于训练模型，从源文本生成一个完全重构的论证，使其隐含的假设显性化，例如。
结构预测：数据集可用于训练模型来形式化句子。
文本检索：数据集可用于训练模型从给定源文本中提取原因陈述和猜想。

语言

英语，将来将扩展到其他语言。

数据集结构

子数据集

此收集包含以下 deepa2 数据集：

esnli：通过 deepa2 bake 作为 described here 从 e-SNLI 创建的。
enbank（task_1、task_2）：通过 deepa2 bake 作为 described here 从 Entailment Bank 创建的。
argq：通过 deepa2 bake 作为 described here 从 IBM-ArgQ 创建的。
argkp：通过 deepa2 bake 作为 described here 从 IBM-KPA 创建的。
aifdb（moral-maze、us2016、vacc-itc）：通过 deepa2 bake 作为 described here 从 AIFdb 创建的。
aaac（aaac01 和 aaac02）：原始的机器生成的贡献；基于一个改进和扩展的算法来支持 https://huggingface.co/datasets/debatelab/aaac 。

数据实例

参见： https://github.com/debatelab/deepa2/tree/main/docs

数据字段

参见： https://github.com/debatelab/deepa2/tree/main/docs

feature	esnli	enbank	aifdb	aaac	argq	argkp
source_text	x	x	x	x	x	x
title	x	x
gist	x	x	x	x
source_paraphrase	x	x	x	x
context	x	x	x
reasons	x	x	x	x	x
conjectures	x	x	x	x	x
argdown_reconstruction	x	x	x	x
erroneous_argdown	x	x
premises	x	x	x	x
intermediary_conclusion	x
conclusion	x	x	x	x
premises_formalized	x	x	x
intermediary_conclusion_formalized	x
conclusion_formalized	x	x	x
predicate_placeholders	x
entity_placeholders	x
misc_placeholders	x	x	x
plchd_substitutions	x	x	x

数据划分

每个子数据集包含三个划分：训练集、验证集和测试集。

数据集创建

策划理由

许多 NLP 数据集专注于逻辑分析和论证重构相关的任务。此收集试图将这些资源统一在一个共同的框架中。

源数据

参见：子数据集

附加信息

数据集策划者

Gregor Betz, KIT; Kyle Richardson, Allen AI

许可信息

我们根据其原始许可证重新分发导入的子数据集：

Sub-dataset	License
esnli	MIT
aifdb	free for academic use ( 12311321 )
enbank	CC BY 4.0
aaac	CC BY 4.0
argq	CC BY SA 4.0
argkp	Apache

引用信息

@article{betz2021deepa2,
      title={DeepA2: A Modular Framework for Deep Argument Analysis with Pretrained Neural Text2Text Language Models}, 
      author={Gregor Betz and Kyle Richardson},
      year={2021},
      eprint={2110.01509},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

作者:

debatelab

数据集大小:

1.18 GB