亚马逊多语种反事实数据集

该数据集包含从亚马逊产品评论数据集中抽取的句子，用于反事实检测（CFD）的二元分类标注。反事实陈述描述的是未发生或无法发生的事件。反事实陈述可以被识别为如下形式的陈述-如果p是真的，那么q就是真的（即先决条件（p）和结论（q）已知或被假定为假的断言）。

该数据集的主要特点如下：

数据集是多语种的，包含英语、德语和日语的句子。
标记是由专业语言学家完成的，并确保高质量。
数据集补充了由专业语言学家制定的注释指南和定义。我们还提供了线索词列表，这些列表对于反事实句子而言是典型的，并且被用于初始数据过滤。线索词列表也是由专业语言学家编制的。

有关数据统计、数据收集和注释的详细描述，请参见 paper 。

GitHub存储库URL: https://github.com/amazon-research/amazon-multilingual-counterfactual-dataset

用法

你可以按照以下方式加载每种语言：

from datasets import get_dataset_config_names

dataset_id = "SetFit/amazon_counterfactual"
# Returns ['de', 'en', 'en-ext', 'ja']
configs = get_dataset_config_names(dataset_id)
# Load English subset
dset = load_dataset(dataset_id, name="en")

作者:

SetFit

数据集大小:

3.27 MB