数据集:
alexandrainst/scandi-reddit
ScandiReddit是一个经过过滤和后处理的语料库,包含了 Reddit 条评论。
从2005年12月到2022年10月的所有Reddit评论都经过了 PushShift 下载,然后根据FastText语言检测模型进行了过滤。任何被分类为丹麦语( da )、挪威语( no )、瑞典语( sv )或冰岛语( is )且置信度分数超过70%的评论都被保留下来。
然后对结果进行了去重处理,删除了大约438,000个评论。删除了5,000个由Reddit机器人编写的评论,以及大约189,000个属于不当子版块(色情和涉毒)的评论。
最后,我们从结果语料库中删除了大约40,000个近似重复的评论,这里的近似重复意味着这些评论有超过80%的五词组在另一条评论中也存在。
该数据集的目标任务是训练语言模型。目前还没有排行榜。
数据集提供的语言有丹麦语( da )、瑞典语( sv )、挪威语( no )和冰岛语( is )。
数据集中的一条示例如下所示。
{
'doc': 'Bergen er ødelagt. Det er ikke moro mer.',
'subreddit': 'Norway',
'language': 'da',
'language_confidence': 0.7472341656684875
}
所有拆分的数据字段相同。
| name | count |
|---|---|
| sv | 6,967,420 |
| da | 4,965,195 |
| no | 1,340,470 |
| is | 206,689 |
| total | 13,479,774 |
| name | count |
|---|---|
| sweden | 4,881,483 |
| Denmark | 3,579,178 |
| norge | 1,281,655 |
| svenskpolitik | 771,960 |
| InfluencergossipDK | 649,910 |
| swedishproblems | 339,683 |
| Iceland | 183,488 |
| dkfinance | 113,860 |
| unket | 81,077 |
| DanishEnts | 69,055 |
| dankmark | 62,928 |
| swedents | 58,576 |
| scandinavia | 57,136 |
| Allsvenskan | 56,006 |
| Gothenburg | 54,395 |
| stockholm | 51,016 |
| ISKbets | 47,944 |
| Sverige | 39,552 |
| SWARJE | 34,691 |
| GossipDK | 29,332 |
| NorskFotball | 28,571 |
| Superligaen | 23,641 |
| Aarhus | 22,516 |
| Svenska | 20,561 |
| newsdk | 19,893 |
| AskReddit | 16,672 |
| copenhagen | 16,668 |
| okpolarncp | 16,583 |
| SwedditUniversalis | 15,990 |
| Sveriges_politik | 15,058 |
| intresseklubben | 13,246 |
| Aktiemarknaden | 13,202 |
| soccer | 12,637 |
| teenagers | 10,845 |
| Norway | 10,680 |
| europe | 10,247 |
| Matinbum | 9,792 |
| oslo | 9,650 |
| iksdagen | 9,232 |
| Asksweddit | 8,851 |
| Forsvaret | 8,641 |
| Sverigesforsvarsmakt | 8,469 |
| memes | 8,299 |
| Danish | 8,268 |
| DANMAG | 8,214 |
| PewdiepieSubmissions | 7,800 |
| sweddpolitik | 7,646 |
| pinsamt | 7,318 |
| arbetarrorelsen | 7,317 |
| Ishockey | 6,824 |
斯堪的纳维亚语言没有太多的开源社交媒体数据集。
原始的Reddit数据是通过 PushShift 收集的。
来自 The Alexandra Institute 的 Dan Saattrup Nielsen 策划了此数据集。
该数据集的许可协议是 CC BY 4.0 license 。