数据集:
bookcorpus
语言:
计算机处理:
monolingual大小:
10M<n<100M语言创建人:
found批注创建人:
no-annotation源数据集:
original预印本库:
arxiv:2105.05241许可:
书籍是丰富的信息源,既提供细粒度信息,例如人物、物体或场景的外观,又提供高层次语义信息,例如人物的思考、感受以及这些状态的演变。本工作旨在将书籍与电影的发布对齐,以提供超越当前数据集中的标题所提供的语义上丰富的图像内容描述。
'train' 的示例如下所示。
{
    "text": "But I traded all my life for some lovin' and some gold"
}
 所有拆分的数据字段相同。
plain_text| name | train | 
|---|---|
| plain_text | 74004228 | 
这些书籍是从 https://www.smashwords.com 爬取的,详细信息请参阅他们的 terms of service 。
对于该数据集,还创建并发布了一份数据表格,详见 Addressing "Documentation Debt" in Machine Learning Research: A Retrospective Datasheet for BookCorpus 。
@InProceedings{Zhu_2015_ICCV,
    title = {Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books},
    author = {Zhu, Yukun and Kiros, Ryan and Zemel, Rich and Salakhutdinov, Ruslan and Urtasun, Raquel and Torralba, Antonio and Fidler, Sanja},
    booktitle = {The IEEE International Conference on Computer Vision (ICCV)},
    month = {December},
    year = {2015}
}
 感谢 @lewtun 、 @richarddwang 、 @lhoestq 、 @thomwolf 添加了该数据集。