数据集:

embedding-data/PAQ_pairs

任务:

句子相似度

子任务:

semantic-similarity-classification

语言:

预印本库:

arxiv:2102.07033

许可:

mit

数据集介绍文件清单

英文

"PAQ_pairs"数据集的数据卡

数据集概述

从维基百科中获取的问题和答案配对数据。

免责声明：发布PAQ QA配对数据的团队未将数据集上传到Hub，也未编写数据卡。这些步骤是由Hugging Face团队完成的。

支持的任务

Sentence Transformers 训练；用于语义搜索和句子相似性。

语言

英语。

数据集结构

数据集中的每个示例包含句子对，格式为字典，键为"set"，值为句子列表。第一句是一个问题，第二句是答案；因此，两个句子会很相似。

{"set": [sentence_1, sentence_2]}
{"set": [sentence_1, sentence_2]}
...
{"set": [sentence_1, sentence_2]}

这个数据集对于训练句子转换模型非常有用。请参考以下帖子，了解如何使用类似的句子对训练模型。

使用示例

使用 pip install datasets 安装🤗数据集库，并从Hub加载数据集：

from datasets import load_dataset
dataset = load_dataset("embedding-data/PAQ_pairs")

数据集加载为 DatasetDict 格式：

DatasetDict({
    train: Dataset({
        features: ['set'],
        num_rows: 64371441
    })
})

使用以下方法查看示例 i ：

dataset["train"][i]["set"]

数据集创建

More Information Needed

策划理由

More Information Needed

源数据

初始数据收集和归一化

More Information Needed

谁是源语言的生成者？

More Information Needed

标注

标注过程

More Information Needed

谁是标注者？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

PAQ QA-pairs和元数据根据 CC-BY-SA 许可。其他数据根据附带的许可文件许可。

引用信息

@article{lewis2021paq,
      title={PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them}, 
      author={Patrick Lewis and Yuxiang Wu and Linqing Liu and Pasquale Minervini and Heinrich Küttler and Aleksandra Piktus and Pontus Stenetorp and Sebastian Riedel},
      year={2021},
      eprint={2102.07033},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

感谢 @patrick-s-h-lewis 添加了这个数据集。

作者:

embedding-data

数据集大小:

17.02 GB

"PAQ_pairs"数据集的数据卡

数据集概述

支持的任务

语言

数据集结构

使用示例

数据实例

数据字段

数据拆分

数据集创建

策划理由

源数据

标注

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

附加信息

数据集策划者

许可信息

引用信息

贡献