数据集:

shibing624/sts-sohu2021

英文

sts-sohu2021 数据集卡片

数据集摘要

2021搜狐校园文本匹配算法大赛数据集

分为 A 和 B 两个文件,A 和 B 文件匹配标准不一样。其中 A 和 B 文件又分为“短短文本匹配”、“短长文本匹配”和“长长文本匹配”。 A 文件匹配标准较为宽泛,两段文字是同一个话题便视为匹配,B 文件匹配标准较为严格,两段文字须是同一个事件才视为匹配。

数据类型:

type 数据类型
dda 短短匹配 A 类
ddb 短短匹配 B 类
dca 短长匹配 A 类
dcb 短长匹配 B 类
cca 长长匹配 A 类
ccb 长长匹配 B 类

支持的任务和排行榜

支持的任务:支持中文文本匹配任务,文本相似度计算等相关任务。

中文匹配任务的结果目前在顶会paper上出现较少,我罗列一个我自己训练的结果:

排行榜: NLI_zh leaderboard

语言

数据集均是简体中文文本。

数据集结构

数据实例

'train' 的一个示例如下所示。

# A 类 短短 样本示例
{
    "sentence1": "小艺的故事让爱回家2021年2月16日大年初五19:30带上你最亲爱的人与团团君相约《小艺的故事》直播间!",
    "sentence2": "香港代购了不起啊,宋点卷竟然在直播间“炫富”起来",
    "label": 0
}

# B 类 短短 样本示例
{
    "sentence1": "让很多网友好奇的是,张柏芝在一小时后也在社交平台发文:“给大家拜年啦。”还有网友猜测:谢霆锋的经纪人发文,张柏芝也发文,并且配图,似乎都在证实,谢霆锋依旧和王菲在一起,而张柏芝也有了新的恋人,并且生了孩子,两人也找到了各自的归宿,有了自己的幸福生活,让传言不攻自破。",
    "sentence2": "陈晓东谈旧爱张柏芝,一个口误暴露她的秘密,难怪谢霆锋会离开她", 
    "label": 0
}

标签: 0表示不匹配,1表示匹配。

数据字段

所有拆分的数据字段相同。

  • sentence1 : 一个 string 特征。
  • sentence2 : 一个 string 特征。
  • label : 一个分类标签,可能的值包括 similarity (1),dissimilarity (0)。

数据拆分

> wc -l *.jsonl
    11690 cca.jsonl
    11690 ccb.jsonl
    11592 dca.jsonl
    11593 dcb.jsonl
    11512 dda.jsonl
    11501 ddb.jsonl
    69578 total

策划理由

作为中文NLI(natural langauge inference)数据集,这里把这个数据集上传到huggingface的datasets,方便大家使用。

Who are the source language producers?

数据集的版权归原作者所有,使用各数据集时请尊重原数据集的版权。

Who are the annotators?

原作者。

数据集的社会影响

该数据集是作为评估文本的表示系统,特别是那些由表示学习方法引入的系统,在给定上下文中预测真实条件的基准而开发的。

在这样的任务中获得成功的系统可能在建模语义表示方面更加成功。

许可信息

用于学术研究。

贡献

shibing624 上传了此数据集。