数据集:
crd3
子任务:
dialogue-modeling语言:
计算机处理:
monolingual大小:
10K<n<100K语言创建人:
crowdsourced批注创建人:
no-annotation源数据集:
original许可:
从对话中讲故事:一种Critical Role龙与地下城数据集。Critical Role是一档未经剧本的直播节目,固定团队的人们玩龙与地下城,这是一款开放式的角色扮演游戏。该数据集是从159集Critical Role剧集转录成文本对话收集而来,包括398,682轮对话。它还包括从Fandom维基收集的相应的摘要概述。该数据集在语言上是独一无二的,因为故事情节完全是通过玩家的合作和口头交流生成的。对于每个对话,有大量的对话轮次,多个不同级别详细程度的摘要,并与先前对话有语义关联。
摘要:该数据集可用于训练用于摘要生成的模型。基线模型达到了25.18的ROUGE-L-F1分数。
数据集中的文本为英语,由"The Critical Role"节目上的演员讲述,这是一个每周固定团队人员玩龙与地下城的直播节目,龙与地下城是一款流行的角色扮演游戏。
"train"的示例如下所示。
{
    "alignment_score": 3.679936647415161,
    "chunk": "Wish them a Happy Birthday on their Facebook and Twitter pages! Also, as a reminder: D&D Beyond streams their weekly show (\"And Beyond\") every Wednesday on twitch.tv/dndbeyond.",
    "chunk_id": 1,
    "turn_end": 6,
    "turn_num": 4,
    "turn_start": 4,
    "turns": {
        "names": ["SAM"],
        "utterances": ["Yesterday, guys, was D&D Beyond's first one--", "first one-year anniversary. Take two. Hey guys,", "yesterday was D&D Beyond's one-year anniversary.", "Wish them a happy birthday on their Facebook and", "Twitter pages."]
    }
}
 所有拆分中的数据字段相同。
| name | train | validation | test | 
|---|---|---|---|
| default | 38,969 | 6,327 | 7,500 | 
对话理解和摘要生成仍然是计算语言学中重要且具有挑战性的问题。当前的摘要生成建模范式在捕捉长篇故事对话领域中的语义与语用、内容选择、重写和评估方面存在特定的失败。CRD3提供了一个语言丰富的数据集,来探索这些领域。
龙与地下城是一款流行的角色扮演游戏,其驱动力在于结构化的故事叙述。Critical Role是一档未经剧本的直播节目,固定团队的人们玩龙与地下城。该数据集包括该节目的159集剧集,剧集被转录成文本。人工解决了一些不一致性(例如发言者姓名的拼写)。
摘要是从 Critical Role Fandom wiki 收集的
谁是源语言的制作者?语言的制作者是"The Critical Role"节目上的演员,这是一个每周固定团队人员玩龙与地下城的直播节目,龙与地下城是一款流行的角色扮演游戏。
[N/A]
谁是注释者?[N/A]
[N/A]
CRTranscript提供了节目的转录;Critical Role Wiki的贡献者提供了摘要概述。
该作品根据[Creative Commons Attribution-ShareAlike 4.0 International License][cc-by-sa-4.0]授权,对应于Critical Role Wiki https://criticalrole.fandom.com/
@inproceedings{
title = {Storytelling with Dialogue: A Critical Role Dungeons and Dragons Dataset},
author = {Rameshkumar, Revanth  and Bailey, Peter},
year = {2020},
publisher = {Association for Computational Linguistics},
conference = {ACL}
}
 感谢 @thomwolf , @lhoestq , @mariamabarham , @lewtun 添加了该数据集。