数据集:

shibing624/sts-sohu2021

许可:

cc-by-4.0

源数据集:

https

批注创建人:

shibing624

语言创建人:

shibing624

大小:

size_categories:100K<n<20M

计算机处理:

语言:

子任务:

text-scoring semantic-similarity-scoring natural-language-inference

任务:

句子相似度

文本分类

数据集介绍文件清单

英文

sts-sohu2021 数据集卡片

数据集摘要

2021搜狐校园文本匹配算法大赛数据集

数据源： https://www.biendata.xyz/competition/sohu_2021/data/

分为 A 和 B 两个文件，A 和 B 文件匹配标准不一样。其中 A 和 B 文件又分为“短短文本匹配”、“短长文本匹配”和“长长文本匹配”。 A 文件匹配标准较为宽泛，两段文字是同一个话题便视为匹配，B 文件匹配标准较为严格，两段文字须是同一个事件才视为匹配。

数据类型：

type	数据类型
dda	短短匹配 A 类
ddb	短短匹配 B 类
dca	短长匹配 A 类
dcb	短长匹配 B 类
cca	长长匹配 A 类
ccb	长长匹配 B 类

支持的任务和排行榜

支持的任务：支持中文文本匹配任务，文本相似度计算等相关任务。

中文匹配任务的结果目前在顶会paper上出现较少，我罗列一个我自己训练的结果：

排行榜： NLI_zh leaderboard

语言

数据集均是简体中文文本。

数据集结构

数据实例

'train' 的一个示例如下所示。

# A 类 短短 样本示例
{
    "sentence1": "小艺的故事让爱回家2021年2月16日大年初五19：30带上你最亲爱的人与团团君相约《小艺的故事》直播间！",
    "sentence2": "香港代购了不起啊，宋点卷竟然在直播间“炫富”起来",
    "label": 0
}

# B 类 短短 样本示例
{
    "sentence1": "让很多网友好奇的是，张柏芝在一小时后也在社交平台发文：“给大家拜年啦。”还有网友猜测：谢霆锋的经纪人发文，张柏芝也发文，并且配图，似乎都在证实，谢霆锋依旧和王菲在一起，而张柏芝也有了新的恋人，并且生了孩子，两人也找到了各自的归宿，有了自己的幸福生活，让传言不攻自破。",
    "sentence2": "陈晓东谈旧爱张柏芝，一个口误暴露她的秘密，难怪谢霆锋会离开她", 
    "label": 0
}

标签: 0表示不匹配，1表示匹配。

数据字段

所有拆分的数据字段相同。

sentence1 : 一个 string 特征。
sentence2 : 一个 string 特征。
label : 一个分类标签，可能的值包括 similarity (1)，dissimilarity (0)。

数据拆分

> wc -l *.jsonl
    11690 cca.jsonl
    11690 ccb.jsonl
    11592 dca.jsonl
    11593 dcb.jsonl
    11512 dda.jsonl
    11501 ddb.jsonl
    69578 total

策划理由

作为中文NLI(natural langauge inference)数据集，这里把这个数据集上传到huggingface的datasets，方便大家使用。

Who are the source language producers?

数据集的版权归原作者所有，使用各数据集时请尊重原数据集的版权。

Who are the annotators?

原作者。

数据集的社会影响

该数据集是作为评估文本的表示系统，特别是那些由表示学习方法引入的系统，在给定上下文中预测真实条件的基准而开发的。

在这样的任务中获得成功的系统可能在建模语义表示方面更加成功。

许可信息

用于学术研究。

贡献

shibing624 上传了此数据集。

作者:

shibing624

数据集大小:

211.96 MB