数据集:

allegro/klej-dyk

任务:

问答

子任务:

open-domain-qa

语言:

pl

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

other

批注创建人:

expert-generated

源数据集:

original
英文

klej-dyk

描述

Czy wiesz?(英文:Did you know?)数据集包含了近5000个问题-答案对,这些问题-答案对是从波兰维基百科的Czy wiesz...(你知道吗...)栏目中获取的。每个问题都是由维基百科的协作者撰写的,并以相关维基百科文章的链接作为答案。在Huggingface版本的数据集中,他们选择了与问题具有最大标记重叠的否定答案。

任务(输入、输出和指标)

任务是预测给定问题的答案是否正确。

输入 ('question sentence', 'answer' 列): 问题和答案句子

输出 ('target' 列): 如果答案正确则为 1,否则为 0。

领域 : 维基百科

测量指标 : F1-Score

示例 :

输入: Czym zajmowali się świątnicy? ; Świątnik – osoba, która dawniej zajmowała się obsługą kościoła (świątyni).

输入 (由DeepL翻译): What did the sacristans do? ; A sacristan - a person who used to be in charge of the handling the church (temple).

输出: 1 (答案正确)

数据拆分

Subset Cardinality
train 4154
val 0
test 1029

类别分布

Class train validation test
incorrect 0.831 - 0.831
correct 0.169 - 0.169

引用

@misc{11321/39,	
 title = {Pytania i odpowiedzi z serwisu wikipedyjnego "Czy wiesz", wersja 1.1},	
 author = {Marci{\'n}czuk, Micha{\l} and Piasecki, Dominik and Piasecki, Maciej and Radziszewski, Adam},	
 url = {http://hdl.handle.net/11321/39},	
 note = {{CLARIN}-{PL} digital repository},	
 year = {2013}	
}

许可证

Creative Commons Attribution ShareAlike 3.0 licence (CC-BY-SA 3.0)

链接

HuggingFace

Source Source #2

Paper

示例

加载

from pprint import pprint

from datasets import load_dataset

dataset = load_dataset("allegro/klej-dyk")
pprint(dataset['train'][100])

#{'answer': '"W wyborach prezydenckich w 2004 roku, Moroz przekazał swoje '
#           'poparcie Wiktorowi Juszczence. Po wyborach w 2006 socjaliści '
#           'początkowo tworzyli ""pomarańczową koalicję"" z Naszą Ukrainą i '
#           'Blokiem Julii Tymoszenko."',
# 'q_id': 'czywiesz4362',
# 'question': 'ile partii tworzy powołaną przez Wiktora Juszczenkę koalicję '
#             'Blok Nasza Ukraina?',
# 'target': 0}

评估

import random
from pprint import pprint

from datasets import load_dataset, load_metric

dataset = load_dataset("allegro/klej-dyk")
dataset = dataset.class_encode_column("target")
references = dataset["test"]["target"]

# generate random predictions
predictions = [random.randrange(max(references) + 1) for _ in range(len(references))]

acc = load_metric("accuracy")
f1 = load_metric("f1")

acc_score = acc.compute(predictions=predictions, references=references)
f1_score = f1.compute(predictions=predictions, references=references, average="macro")

pprint(acc_score)
pprint(f1_score)

# {'accuracy': 0.5286686103012633}
# {'f1': 0.46700507614213194}