数据集:
embedding-data/WikiAnswers
WikiAnswers语料库包含由WikiAnswers用户标记为释义的问题簇。每个簇可以包含由WikiAnswers用户提供的答案。共有30,370,994个簇,平均每个簇有25个问题。其中3,386,256个簇(11%)有答案。
数据集中的每个示例包含25个等效句子,并被格式化为具有键“set”和以句子为“value”的列表的字典。
{"set": [sentence_1, sentence_2, ..., sentence_25]}
{"set": [sentence_1, sentence_2, ..., sentence_25]}
...
{"set": [sentence_1, sentence_2, ..., sentence_25]}
 此数据集可用于训练Sentence Transformers模型。有关如何使用相似句子训练模型的详细信息,请参考以下帖子。
使用 pip install datasets 安装🤗 Datasets库,并使用以下方式从Hub加载数据集:
from datasets import load_dataset
dataset = load_dataset("embedding-data/WikiAnswers")
 数据集加载为 DatasetDict,并具有以下格式的 N 个示例:
DatasetDict({
    train: Dataset({
        features: ['set'],
        num_rows: N
    })
})
 使用以下方式查看示例 i :
dataset["train"][i]["set"]
@inproceedings{Fader14,
    author    = {Anthony Fader and Luke Zettlemoyer and Oren Etzioni},
    title     = {{Open Question Answering Over Curated and Extracted
                Knowledge Bases}},
    booktitle = {KDD},
    year      = {2014}
}