数据集:

skt/kobest_v1

语言:

ko

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2204.04541
英文

KoBEST 数据集卡片

数据集摘要

KoBEST 是一个包含5个需要对韩语有高级知识的自然语言理解任务的韩文基准套件。

支持的任务和排行榜

布尔问题回答、可行替代选择、上下文中的单词、HellaSwag、情感否定识别

语言

ko-KR

数据集结构

数据实例

KB-BoolQ

数据点示例如下。

{'paragraph': '두아 리파(Dua Lipa, 1995년 8월 22일 ~ )는 잉글랜드의 싱어송라이터, 모델이다. BBC 사운드 오브 2016 명단에 노미닛되었다. 싱글 "Be the One"가 영국 싱글 차트 9위까지 오르는 등 성과를 보여주었다.',
 'question': '두아 리파는 영국인인가?',
 'label': 1}
KB-COPA

数据点示例如下。

{'premise': '물을 오래 끓였다.',
 'question': '결과',
 'alternative_1': '물의 양이 늘어났다.',
 'alternative_2': '물의 양이 줄어들었다.',
 'label': 1}
KB-WiC

数据点示例如下。

{'word': '양분',
 'context_1': '토양에 [양분]이 풍부하여 나무가 잘 자란다.	',
 'context_2': '태아는 모체로부터 [양분]과 산소를 공급받게 된다.',
 'label': 1}
KB-HellaSwag

数据点示例如下。

{'context': '모자를 쓴 투수가 타자에게 온 힘을 다해 공을 던진다. 공이 타자에게 빠른 속도로 다가온다. 타자가 공을 배트로 친다. 배트에서 깡 소리가 난다. 공이 하늘 위로 날아간다.',
 'ending_1': '외야수가 떨어지는 공을 글러브로 잡는다.',
 'ending_2': '외야수가 공이 떨어질 위치에 자리를 잡는다.',
 'ending_3': '심판이 아웃을 외친다.',
 'ending_4': '외야수가 공을 따라 뛰기 시작한다.',
 'label': 3}
KB-SentiNeg

数据点示例如下。

{'sentence': '택배사 정말 마음에 듬',
 'label': 1}

数据字段

KB-BoolQ

  • paragraph : 字符串类型的特征
  • question : 字符串类型的特征
  • label : 分类标签,可能的值为 False (0) 和 True (1)

KB-COPA

  • premise : 字符串类型的特征
  • question : 字符串类型的特征
  • alternative_1 : 字符串类型的特征
  • alternative_2 : 字符串类型的特征
  • label : 候选答案标签,可能的值为 alternative_1 (0) 和 alternative_2 (1)

KB-WiC

  • target_word : 字符串类型的特征
  • context_1 : 字符串类型的特征
  • context_2 : 字符串类型的特征
  • label : 分类标签,可能的值为 False (0) 和 True (1)

KB-HellaSwag

  • target_word : 字符串类型的特征
  • context_1 : 字符串类型的特征
  • context_2 : 字符串类型的特征
  • label : 分类标签,可能的值为 False (0) 和 True (1)

KB-SentiNeg

  • sentence : 字符串类型的特征
  • label : 分类标签,可能的值为 Negative (0) 和 Positive (1)

数据集分割

KB-BoolQ
  • 训练集:3,665
  • 验证集:700
  • 测试集:1,404
KB-COPA
  • 训练集:3,076
  • 验证集:1,000
  • 测试集:1,000
KB-WiC
  • 训练集:3,318
  • 验证集:1,260
  • 测试集:1,260
KB-HellaSwag
  • 训练集:3,665
  • 验证集:700
  • 测试集:1,404
KB-SentiNeg
  • 训练集:3,649
  • 验证集:400
  • 测试集:397
  • 测试原文:397(对应测试集是从训练集中取出的数据)

数据集创建

策划理由

[需要更多信息]

来源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用该数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

@misc{https://doi.org/10.48550/arxiv.2204.04541,
  doi = {10.48550/ARXIV.2204.04541},
  url = {https://arxiv.org/abs/2204.04541},
  author = {Kim, Dohyeong and Jang, Myeongjun and Kwon, Deuk Sin and Davis, Eric},
  title = {KOBEST: Korean Balanced Evaluation of Significant Tasks},
  publisher = {arXiv},
  year = {2022},
}

[需要更多信息]

贡献

感谢 @MJ-Jang 添加此数据集。