数据集:

amazon_reviews_multi

任务:

摘要生成

文本生成

填充掩码

子任务:

text-scoring language-modeling masked-language-modeling

语言:

计算机处理:

monolingual multilingual

大小:

100K<n<1M 1M<n<10M

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:2010.02573

许可:

other

数据集介绍文件清单

英文

The Multilingual Amazon Reviews Corpus数据集卡片

数据集简介

我们提供了一个用于多语言文本分类的亚马逊产品评论数据集。该数据集包含2015年11月1日至2019年11月1日期间收集的英语、日语、德语、法语、中文和西班牙语的评论。数据集中的每条记录包含评论文本、评论标题、星级评价、匿名评审人ID、匿名产品ID和粗粒度的产品类别（例如“图书”、“家电”等）。该语料库在星级评价上保持平衡，因此每个星级评价在每种语言中占所有评论的20％。

对于每种语言，训练集、开发集和测试集分别包含20,000、5,000和5,000个评论。每位评论者的最大评论数量为20条，每个产品的最大评论数量为20条。所有评论的字符数不超过2,000个字符，且所有评论至少为20个字符长。

请注意，评论的语言不一定与其市场语言相匹配（例如，来自amazon.de的评论主要是德语，但也可能是英语等）。因此，我们采用了基于Bojanowski等人的工作（2017年）的语言检测算法来确定评论文本的语言，并删除了非预期语言的评论。

支持的任务和排行榜

[需要更多信息]

语言

数据集包含英语、日语、德语、法语、中文和西班牙语的评论。

数据集结构

数据实例

每个数据实例对应一个评论。一个实例的原始JSON如下所示（德语示例）：

{
    "review_id": "de_0784695",
    "product_id": "product_de_0572654",
    "reviewer_id": "reviewer_de_0645436",
    "stars": "1",
    "review_body": "Leider, leider nach einmal waschen ausgeblichen . Es sieht super h\u00fcbsch aus , nur leider stinkt es ganz schrecklich und ein Waschgang in der Maschine ist notwendig ! Nach einem mal waschen sah es aus als w\u00e4re es 10 Jahre alt und hatte 1000 e von Waschg\u00e4ngen hinter sich :( echt schade !",
    "review_title": "Leider nicht zu empfehlen",
    "language": "de",
    "product_category": "home"
}

数据字段

review_id: 评论的字符串标识符。
product_id: 被评论产品的字符串标识符。
reviewer_id: 评论者的字符串标识符。
stars: 介于1-5之间的整数，表示星级评价。
review_body: 评论的正文文本。
review_title: 评论的标题文本。
language: 评论语言的字符串标识符。
product_category: 产品类别的字符串表示。

数据拆分

每种语言配置都有自己的训练集、开发集和测试集。all_languages拆分是对所有语言对应拆分的连接。也就是说，all_languages的训练集是每种语言的训练集的连接，验证集和测试集也是如此。

数据集创建

策展原理

该数据集的动机是为了推动非英语语言的情感分析和文本分类。

数据源

初始数据收集和规范化

作者从美国、日本、德国、法国、西班牙和中国的市场上收集了英语、日语、德语、法语、西班牙语和中文的评论。然后，他们通过应用语言检测算法来确保语言的正确性，只保留目标语言的评论。在结果评论的随机样本中，作者观察到一小部分被错误地过滤掉了目标语言，还有一些被错误地保留了不匹配的语言。

语言源制片人是谁？

原始文本来自亚马逊的顾客在各种产品类别上对市场的评论。

注释

注释过程

所有包含的字段都是用户在评论中提交的，或者与评论相关的。没有进行手动或机器驱动的注释。

注释者是谁？

无

个人和敏感信息

根据原始数据集 license terms ，您不得：

将评论语料库中的内容与任何个人信息（包括亚马逊客户账户）进行链接或关联，或者
试图确定评论语料库中任何内容的作者的身份。

如果您违反上述任何条件，将自动终止您访问和使用评论语料库的许可，不影响亚马逊可能享有的任何其他权利或救济措施。

使用数据的注意事项

数据集的社会影响

该数据集是鼓励非英语语言进行文本分类研究的一部分。这样的工作增加了自然语言技术对更多地区和文化的可访问性。不幸的是，这里包含的每种语言都是相对高资源和广泛研究的。

偏见讨论

该数据集仅包含经过验证购买的评论（如文中第2.1节所述），并且评论应符合 Amazon Community Guidelines 。

其他已知限制

该数据集的构建使得星级评价的分布保持平衡。这个特点在分类目的上有一些优势，但某些类型的语言可能相对于原始评论的分布被过多或过少表示，以实现此平衡。

附加信息

数据集策展人

由Phillip Keung、Yichao Lu、György Szarvas和Noah A. Smith出版。由亚马逊管理。

许可信息

亚马逊已根据其自己的协议为非商业研究使用许可了该数据集。该许可证相当限制，禁止在接受任何费用的地方使用，包括支付实习等。协议副本可在数据集网页上找到： https://docs.opendata.aws/amazon-reviews-ml/license.txt

通过访问Multilingual Amazon Reviews Corpus（“评论语料库”），您同意评论语料库是亚马逊服务，适用于 Amazon.com Conditions of Use ，并同意受其约束，具体条件如下：

除了根据使用条件授予的许可权利外，亚马逊或其内容提供商还向您授予有限的、非独占的、不可转让的、不可子许可的、可撤销的访问并使用评论语料库的许可，用于学术研究目的。您不得转售、重新发布或商业化使用评论语料库或其内容，包括将评论语料库用于商业研究，例如与资金或咨询合同、实习或向营利组织提供费用的关系相关的研究。您不得（a）将评论语料库中的内容与任何个人信息（包括亚马逊客户账户）链接或关联，或者（b）尝试确定评论语料库中任何内容的作者身份。如果您违反上述任何条件，您访问和使用评论语料库的许可将自动终止，而不影响亚马逊可能享有的任何其他权利或救济措施。

引用信息

如果您发现此数据集有用，请引用以下论文（arXiv）：

Phillip Keung、Yichao Lu、György Szarvas和Noah A. Smith。“The Multilingual Amazon Reviews Corpus。”发表于2020年自然语言处理会议论文集中。

@inproceedings{marc_reviews,
    title={The Multilingual Amazon Reviews Corpus},
    author={Keung, Phillip and Lu, Yichao and Szarvas, György and Smith, Noah A.},
    booktitle={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing},
    year={2020}
}

贡献

感谢 @joeddav 添加了这个数据集。

作者:

佚名

数据集大小:

59.32 KB