英文

数据集“clue”的数据卡片

数据集摘要

CLUE(Chinese Language Understanding Evaluation Benchmark) 是一个用于训练、评估和分析中文语言理解系统的资源集合。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据示例

"afqmc"
  • 下载的数据集文件大小:1.20 MB
  • 生成的数据集大小:4.20 MB
  • 总磁盘使用量:5.40 MB

"validation" 的示例如下所示。

{
    "idx": 0,
    "label": 0,
    "sentence1": "双十一花呗提额在哪",
    "sentence2": "里可以提花呗额度"
}
"c3"
  • 下载的数据集文件大小:3.20 MB
  • 生成的数据集大小:15.69 MB
  • 总磁盘使用量:18.90 MB

"train" 的示例如下所示。

This example was too long and was cropped:

{
    "answer": "比人的灵敏",
    "choice": ["没有人的灵敏", "和人的差不多", "和人的一样好", "比人的灵敏"],
    "context": "[\"许多动物的某些器官感觉特别灵敏,它们能比人类提前知道一些灾害事件的发生,例如,海洋中的水母能预报风暴,老鼠能事先躲避矿井崩塌或有害气体,等等。地震往往能使一些动物的某些感觉器官受到刺激而发生异常反应。如一个地区的重力发生变异,某些动物可能通过它们的平衡...",
    "id": 1,
    "question": "动物的器官感觉与人的相比有什么不同?"
}
"chid"
  • 下载的数据集文件大小:139.20 MB
  • 生成的数据集大小:274.08 MB
  • 总磁盘使用量:413.28 MB

"train" 的示例如下所示。

This example was too long and was cropped:

{
    "answers": {
        "candidate_id": [3, 5, 6, 1, 7, 4, 0],
        "text": ["碌碌无为", "无所作为", "苦口婆心", "得过且过", "未雨绸缪", "软硬兼施", "传宗接代"]
    },
    "candidates": "[\"传宗接代\", \"得过且过\", \"咄咄逼人\", \"碌碌无为\", \"软硬兼施\", \"无所作为\", \"苦口婆心\", \"未雨绸缪\", \"和衷共济\", \"人老珠黄\"]...",
    "content": "[\"谈到巴萨目前的成就,瓜迪奥拉用了“坚持”两个字来形容。自从上世纪90年代克鲁伊夫带队以来,巴萨就坚持每年都有拉玛西亚球员进入一队的传统。即便是范加尔时代,巴萨强力推出的“巴萨五鹰”德拉·佩纳、哈维、莫雷罗、罗杰·加西亚和贝拉乌桑几乎#idiom0000...",
    "idx": 0
}
"cluewsc2020"
  • 下载的数据集文件大小:0.28 MB
  • 生成的数据集大小:1.03 MB
  • 总磁盘使用量:1.29 MB

"train" 的示例如下所示。

{
    "idx": 0,
    "label": 1,
    "target": {
        "span1_index": 3,
        "span1_text": "伤口",
        "span2_index": 27,
        "span2_text": "它们"
    },
    "text": "裂开的伤口涂满尘土,里面有碎石子和木头刺,我小心翼翼把它们剔除出去。"
}
"cmnli"
  • 下载的数据集文件大小:31.40 MB
  • 生成的数据集大小:72.12 MB
  • 总磁盘使用量:103.53 MB

"train" 的示例如下所示。

{
    "idx": 0,
    "label": 0,
    "sentence1": "从概念上讲,奶油略读有两个基本维度-产品和地理。",
    "sentence2": "产品和地理位置是使奶油撇油起作用的原因。"
}

数据字段

数据的字段在所有数据集划分之间是相同的。

"afqmc"
  • sentence1:一个字符串特征。
  • sentence2:一个字符串特征。
  • label:一个分类标签,可能的取值包括0(0)、1(1)。
  • idx:一个int32特征。
"c3"
  • id:一个int32特征。
  • context:一组字符串特征。
  • question:一个字符串特征。
  • choice:一组字符串特征。
  • answer:一个字符串特征。
"chid"
  • idx:一个int32特征。
  • candidates:一组字符串特征。
  • content:一组字符串特征。
  • answers:一个包含以下内容的字典特征:
    • text:一个字符串特征。
    • candidate_id:一个int32特征。
"cluewsc2020"
  • idx:一个int32特征。
  • text:一个字符串特征。
  • label:一个分类标签,可能的取值包括true(0)、false(1)。
  • span1_text:一个字符串特征。
  • span2_text:一个字符串特征。
  • span1_index:一个int32特征。
  • span2_index:一个int32特征。
"cmnli"
  • sentence1:一个字符串特征。
  • sentence2:一个字符串特征。
  • label:一个分类标签,可能的取值包括neutral(0)、entailment(1)、contradiction(2)。
  • idx:一个int32特征。

数据拆分

name train validation test
afqmc 34334 4316 3861
c3 11869 3816 3892
chid 84709 3218 3231
cluewsc2020 1244 304 290
cmnli 391783 12241 13880

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言的生产者?

More Information Needed

注释

注释过程

More Information Needed

注释员是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@inproceedings{xu-etal-2020-clue,
    title = "{CLUE}: A {C}hinese Language Understanding Evaluation Benchmark",
    author = "Xu, Liang  and
      Hu, Hai  and
      Zhang, Xuanwei  and
      Li, Lu  and
      Cao, Chenjie  and
      Li, Yudong  and
      Xu, Yechen  and
      Sun, Kai  and
      Yu, Dian  and
      Yu, Cong  and
      Tian, Yin  and
      Dong, Qianqian  and
      Liu, Weitang  and
      Shi, Bo  and
      Cui, Yiming  and
      Li, Junyi  and
      Zeng, Jun  and
      Wang, Rongzhao  and
      Xie, Weijian  and
      Li, Yanting  and
      Patterson, Yina  and
      Tian, Zuoyu  and
      Zhang, Yiwen  and
      Zhou, He  and
      Liu, Shaoweihua  and
      Zhao, Zhe  and
      Zhao, Qipeng  and
      Yue, Cong  and
      Zhang, Xinrui  and
      Yang, Zhengliang  and
      Richardson, Kyle  and
      Lan, Zhenzhong",
    booktitle = "Proceedings of the 28th International Conference on Computational Linguistics",
    month = dec,
    year = "2020",
    address = "Barcelona, Spain (Online)",
    publisher = "International Committee on Computational Linguistics",
    url = "https://aclanthology.org/2020.coling-main.419",
    doi = "10.18653/v1/2020.coling-main.419",
    pages = "4762--4772",
}

贡献者

感谢 @thomwolf @JetRunner 添加此数据集。