英文

The Multilingual Amazon Reviews Corpus数据集卡片

数据集简介

我们提供了一个用于多语言文本分类的亚马逊产品评论数据集。该数据集包含2015年11月1日至2019年11月1日期间收集的英语、日语、德语、法语、中文和西班牙语的评论。数据集中的每条记录包含评论文本、评论标题、星级评价、匿名评审人ID、匿名产品ID和粗粒度的产品类别(例如“图书”、“家电”等)。该语料库在星级评价上保持平衡,因此每个星级评价在每种语言中占所有评论的20%。

对于每种语言,训练集、开发集和测试集分别包含20,000、5,000和5,000个评论。每位评论者的最大评论数量为20条,每个产品的最大评论数量为20条。所有评论的字符数不超过2,000个字符,且所有评论至少为20个字符长。

请注意,评论的语言不一定与其市场语言相匹配(例如,来自amazon.de的评论主要是德语,但也可能是英语等)。因此,我们采用了基于Bojanowski等人的工作(2017年)的语言检测算法来确定评论文本的语言,并删除了非预期语言的评论。

支持的任务和排行榜

[需要更多信息]

语言

数据集包含英语、日语、德语、法语、中文和西班牙语的评论。

数据集结构

数据实例

每个数据实例对应一个评论。一个实例的原始JSON如下所示(德语示例):

{
    "review_id": "de_0784695",
    "product_id": "product_de_0572654",
    "reviewer_id": "reviewer_de_0645436",
    "stars": "1",
    "review_body": "Leider, leider nach einmal waschen ausgeblichen . Es sieht super h\u00fcbsch aus , nur leider stinkt es ganz schrecklich und ein Waschgang in der Maschine ist notwendig ! Nach einem mal waschen sah es aus als w\u00e4re es 10 Jahre alt und hatte 1000 e von Waschg\u00e4ngen hinter sich :( echt schade !",
    "review_title": "Leider nicht zu empfehlen",
    "language": "de",
    "product_category": "home"
}

数据字段

  • review_id: 评论的字符串标识符。
  • product_id: 被评论产品的字符串标识符。
  • reviewer_id: 评论者的字符串标识符。
  • stars: 介于1-5之间的整数,表示星级评价。
  • review_body: 评论的正文文本。
  • review_title: 评论的标题文本。
  • language: 评论语言的字符串标识符。
  • product_category: 产品类别的字符串表示。

数据拆分

每种语言配置都有自己的训练集、开发集和测试集。all_languages拆分是对所有语言对应拆分的连接。也就是说,all_languages的训练集是每种语言的训练集的连接,验证集和测试集也是如此。

数据集创建

策展原理

该数据集的动机是为了推动非英语语言的情感分析和文本分类。

数据源

初始数据收集和规范化

作者从美国、日本、德国、法国、西班牙和中国的市场上收集了英语、日语、德语、法语、西班牙语和中文的评论。然后,他们通过应用语言检测算法来确保语言的正确性,只保留目标语言的评论。在结果评论的随机样本中,作者观察到一小部分被错误地过滤掉了目标语言,还有一些被错误地保留了不匹配的语言。

语言源制片人是谁?

原始文本来自亚马逊的顾客在各种产品类别上对市场的评论。

注释

注释过程

所有包含的字段都是用户在评论中提交的,或者与评论相关的。没有进行手动或机器驱动的注释。

注释者是谁?

个人和敏感信息

根据原始数据集 license terms ,您不得:
  • 将评论语料库中的内容与任何个人信息(包括亚马逊客户账户)进行链接或关联,或者
  • 试图确定评论语料库中任何内容的作者的身份。
如果您违反上述任何条件,将自动终止您访问和使用评论语料库的许可,不影响亚马逊可能享有的任何其他权利或救济措施。

使用数据的注意事项

数据集的社会影响

该数据集是鼓励非英语语言进行文本分类研究的一部分。这样的工作增加了自然语言技术对更多地区和文化的可访问性。不幸的是,这里包含的每种语言都是相对高资源和广泛研究的。

偏见讨论

该数据集仅包含经过验证购买的评论(如文中第2.1节所述),并且评论应符合 Amazon Community Guidelines

其他已知限制

该数据集的构建使得星级评价的分布保持平衡。这个特点在分类目的上有一些优势,但某些类型的语言可能相对于原始评论的分布被过多或过少表示,以实现此平衡。

附加信息

数据集策展人

由Phillip Keung、Yichao Lu、György Szarvas和Noah A. Smith出版。由亚马逊管理。

许可信息

亚马逊已根据其自己的协议为非商业研究使用许可了该数据集。该许可证相当限制,禁止在接受任何费用的地方使用,包括支付实习等。协议副本可在数据集网页上找到: https://docs.opendata.aws/amazon-reviews-ml/license.txt

通过访问Multilingual Amazon Reviews Corpus(“评论语料库”),您同意评论语料库是亚马逊服务,适用于 Amazon.com Conditions of Use ,并同意受其约束,具体条件如下:

除了根据使用条件授予的许可权利外,亚马逊或其内容提供商还向您授予有限的、非独占的、不可转让的、不可子许可的、可撤销的访问并使用评论语料库的许可,用于学术研究目的。您不得转售、重新发布或商业化使用评论语料库或其内容,包括将评论语料库用于商业研究,例如与资金或咨询合同、实习或向营利组织提供费用的关系相关的研究。您不得(a)将评论语料库中的内容与任何个人信息(包括亚马逊客户账户)链接或关联,或者(b)尝试确定评论语料库中任何内容的作者身份。如果您违反上述任何条件,您访问和使用评论语料库的许可将自动终止,而不影响亚马逊可能享有的任何其他权利或救济措施。

引用信息

如果您发现此数据集有用,请引用以下论文(arXiv):

Phillip Keung、Yichao Lu、György Szarvas和Noah A. Smith。“The Multilingual Amazon Reviews Corpus。”发表于2020年自然语言处理会议论文集中。

@inproceedings{marc_reviews,
    title={The Multilingual Amazon Reviews Corpus},
    author={Keung, Phillip and Lu, Yichao and Szarvas, György and Smith, Noah A.},
    booktitle={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing},
    year={2020}
}

贡献

感谢 @joeddav 添加了这个数据集。