数据集:
SetFit/amazon_counterfactual
预印本库:
arxiv:2104.06893该数据集包含从亚马逊产品评论数据集中抽取的句子,用于反事实检测(CFD)的二元分类标注。反事实陈述描述的是未发生或无法发生的事件。反事实陈述可以被识别为如下形式的陈述-如果p是真的,那么q就是真的(即先决条件(p)和结论(q)已知或被假定为假的断言)。
该数据集的主要特点如下:
有关数据统计、数据收集和注释的详细描述,请参见 paper 。
GitHub存储库URL: https://github.com/amazon-research/amazon-multilingual-counterfactual-dataset
你可以按照以下方式加载每种语言:
from datasets import get_dataset_config_names dataset_id = "SetFit/amazon_counterfactual" # Returns ['de', 'en', 'en-ext', 'ja'] configs = get_dataset_config_names(dataset_id) # Load English subset dset = load_dataset(dataset_id, name="en")