数据集:
embedding-data/PAQ_pairs
从维基百科中获取的问题和答案配对数据。
免责声明:发布PAQ QA配对数据的团队未将数据集上传到Hub,也未编写数据卡。这些步骤是由Hugging Face团队完成的。
数据集中的每个示例包含句子对,格式为字典,键为"set",值为句子列表。第一句是一个问题,第二句是答案;因此,两个句子会很相似。
{"set": [sentence_1, sentence_2]}
{"set": [sentence_1, sentence_2]}
...
{"set": [sentence_1, sentence_2]}
 这个数据集对于训练句子转换模型非常有用。请参考以下帖子,了解如何使用类似的句子对训练模型。
使用 pip install datasets 安装🤗数据集库,并从Hub加载数据集:
from datasets import load_dataset
dataset = load_dataset("embedding-data/PAQ_pairs")
 数据集加载为 DatasetDict 格式:
DatasetDict({
    train: Dataset({
        features: ['set'],
        num_rows: 64371441
    })
})
 使用以下方法查看示例 i :
dataset["train"][i]["set"]
PAQ QA-pairs和元数据根据 CC-BY-SA 许可。其他数据根据附带的许可文件许可。
@article{lewis2021paq,
      title={PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them}, 
      author={Patrick Lewis and Yuxiang Wu and Linqing Liu and Pasquale Minervini and Heinrich Küttler and Aleksandra Piktus and Pontus Stenetorp and Sebastian Riedel},
      year={2021},
      eprint={2102.07033},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
 感谢 @patrick-s-h-lewis 添加了这个数据集。