数据集:
TheGreatRambler/mm2_level_comments
其他:
text-mining许可:
源数据集:
original大小:
10M<n<100M计算机处理:
multilingual语言:
部分 Mario Maker 2 Dataset Collection
Mario Maker 2级别评论数据集包含来自任天堂在线服务的3190万个级别评论,总计约为20GB的数据。该数据集是使用自托管 Mario Maker 2 api 在2022年2月的一个月内创建的。
Mario Maker 2级别评论数据集是一个非常庞大的数据集,因此对于大多数用例,建议使用数据集的流API。您可以使用以下代码加载并迭代数据集:
from datasets import load_dataset
ds = load_dataset("TheGreatRambler/mm2_level_comments", streaming=True, split="train")
print(next(iter(ds)))
#OUTPUT:
{
 'data_id': 3000006,
 'comment_id': '20200430072710528979_302de3722145c7a2_2dc6c6',
 'type': 2,
 'pid': '3471680967096518562',
 'posted': 1561652887,
 'clear_required': 0,
 'text': '',
 'reaction_image_id': 10,
 'custom_image': [some binary data],
 'has_beaten': 0,
 'x': 557,
 'y': 64,
 'reaction_face': 0,
 'unk8': 0,
 'unk10': 0,
 'unk12': 0,
 'unk14': [some binary data],
 'unk17': 0
}
 评论可以是文本、反应图像或自定义图像中的一种。 通过下面的枚举可以使用type来标识不同类型的评论。自定义图像是二进制PNG文件。
您也可以下载完整的数据集。请注意,这将下载约20GB的数据:
ds = load_dataset("TheGreatRambler/mm2_level_comments", split="train")
 {
 'data_id': 3000006,
 'comment_id': '20200430072710528979_302de3722145c7a2_2dc6c6',
 'type': 2,
 'pid': '3471680967096518562',
 'posted': 1561652887,
 'clear_required': 0,
 'text': '',
 'reaction_image_id': 10,
 'custom_image': [some binary data],
 'has_beaten': 0,
 'x': 557,
 'y': 64,
 'reaction_face': 0,
 'unk8': 0,
 'unk10': 0,
 'unk12': 0,
 'unk14': [some binary data],
 'unk17': 0
}
 | Field | Type | Description | 
|---|---|---|
| data_id | int | The data ID of the level this comment appears on | 
| comment_id | string | Comment ID | 
| type | int | Type of comment, enum below | 
| pid | string | Player ID of the comment creator | 
| posted | int | UTC timestamp of when this comment was created | 
| clear_required | bool | Whether this comment requires a clear to view | 
| text | string | If the comment type is text, the text of the comment | 
| reaction_image_id | int | If this comment is a reaction image, the id of the reaction image, enum below | 
| custom_image | bytes | If this comment is a custom drawing, the custom drawing as a PNG binary | 
| has_beaten | int | Whether the user had beaten the level when they created the comment | 
| x | int | The X position of the comment in game | 
| y | int | The Y position of the comment in game | 
| reaction_face | int | The reaction face of the mii of this user, enum below | 
| unk8 | int | Unknown | 
| unk10 | int | Unknown | 
| unk12 | int | Unknown | 
| unk14 | bytes | Unknown | 
| unk17 | int | Unknown | 
数据集只包含训练集。
数据集包含一些枚举整数字段。这可用于转换回它们的字符串等效项:
CommentType = {
    0: "Custom Image",
    1: "Text",
    2: "Reaction Image"
}
CommentReactionImage = {
    0: "Nice!",
    1: "Good stuff!",
    2: "So tough...",
    3: "EASY",
    4: "Seriously?!",
    5: "Wow!",
    6: "Cool idea!",
    7: "SPEEDRUN!",
    8: "How?!",
    9: "Be careful!",
    10: "So close!",
    11: "Beat it!"
}
CommentReactionFace = {
    0: "Normal",
    16: "Wink",
    1: "Happy",
    4: "Surprised",
    18: "Scared",
    3: "Confused"
}
 该数据集是在2022年2月的一个多月内使用自托管 Mario Maker 2 api 创建的。由于向任天堂的服务器发送的请求需要进行身份验证,因此必须非常小心地进行该过程,并限制下载速度,以免超过API的负荷并有风险被禁用。目前没有创建此数据集的更新版本的意图。
该数据集由来自全球各地的许多不同Mario Maker 2玩家的评论组成,因此他们的文本可能包含有害语言。自定义图像中也可能存在有害描绘。