数据集:
Exr0n/wiki-entity-similarity
用法:
from datasets import load_dataset corpus = load_dataset('Exr0n/wiki-entity-similarity', '2018thresh20corpus', split='train') assert corpus[0] == {'article': 'A1000 road', 'link_text': 'A1000', 'is_same': 1} pairs = load_dataset('Exr0n/wiki-entity-similarity', '2018thresh20pairs', split='train') assert corpus[0] == {'article': 'Rhinobatos', 'link_text': 'Ehinobatos beurleni', 'is_same': 1} assert len(corpus) == 4_793_180
该语料库是通过聚合与各个文章相关的链接文本生成的。例如,如果维基文章A将文章B表示为C,则C被添加到文章B的别名列表中,并且对(B,C)这对数据包括在数据集中。
如同(DPR https://arxiv.org/pdf/2004.04906.pdf )所述,我们使用了英文维基百科的2018年12月20日的转储文件作为链接收集的源文件。
数据集包括三个不同的质量级别,根据所需的最小入站链接数量来区分数据集中的文章。这种过滤是基于启发式规则“良好的文章有更多引用”。
Min. Inbound Links | Number of Articles | Number of Distinct Links |
---|---|---|
5 | 1,080,073 | 5,787,081 |
10 | 605,775 | 4,407,409 |
20 | 324,949 | 3,195,545 |
该数据集还包括用于训练分类器的训练对数据集(包含正例和负例)。训练/验证/测试分割比例为每个语料库的75/15/10%。
该数据集中的训练对是通过将语料库中的每个示例作为正例,并从正例的文章标题和来自不同文章的随机链接文本中创建一个新的负例。
每个分割中的文章与其他分割中的文章不重叠,并且每个分割中的正例(语义相同)和负例(语义不同)的数量相同。
关于数据集动机的更多细节,请参阅 the paper 。如果您在工作中使用了该数据集,请使用ArXiv参考引用它。
生成脚本可以在这里找到 in the GitHub repo 。