数据集:

embedding-data/coco_captions_quintets

英文

"coco_captions" 数据集卡片

数据集概述

COCO 是一个大规模的目标检测、分割和字幕数据集。该数据集包含每张图像的五个描述,适用于句子相似性任务。

免责声明:发布 COCO 数据集的团队未将数据集上传至 Hub,并未编写数据集卡片。这些步骤由 Hugging Face 团队完成。

支持的任务

语言

  • 英语。

数据集结构

数据集中的每个示例包含相似句子的集合,格式为一个字典,键名为 "set",值为句子列表。

{"set": [sentence_1, sentence_2, sentence3, sentence4, sentence5]}
{"set": [sentence_1, sentence_2, sentence3, sentence4, sentence5]}
...
{"set": [sentence_1, sentence_2, sentence3, sentence4, sentence5]}

该数据集适用于训练 Sentence Transformers 模型。请参考下面的文章,了解如何使用相似的句子对训练模型。

使用示例

使用以下命令安装 ? Datasets 库: pip install datasets ,然后使用 Hub 加载数据集:

from datasets import load_dataset
dataset = load_dataset("embedding-data/coco_captions")

数据集加载为 DatasetDict,并具有以下格式:

DatasetDict({
    train: Dataset({
        features: ['set'],
        num_rows: 82783
    })
})

使用以下代码检查第 i 个示例:

dataset["train"][i]["set"]

数据实例

More Information Needed

数据拆分

More Information Needed

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

源语言的制作者是谁?

More Information Needed

标注

标注过程

More Information Needed

标注者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

该数据集中的注释及此网站归 COCO 联盟所有,并根据 Creative Commons Attribution 4.0 License 许可。

引用信息

More Information Needed

贡献者

感谢:

  • Tsung-Yi Lin - Google Brain
  • Genevieve Patterson - MSR, Trash TV
  • Matteo R. - Ronchi Caltech
  • Yin Cui - Google
  • Michael Maire - TTI-Chicago
  • Serge Belongie - Cornell Tech
  • Lubomir Bourdev - WaveOne, Inc.
  • Ross Girshick - FAIR
  • James Hays - Georgia Tech
  • Pietro Perona - Caltech
  • Deva Ramanan - CMU
  • Larry Zitnick - FAIR
  • Piotr Dollár - FAIR

感谢以上贡献者添加此数据集。