数据集:
taskmaster1
子任务:
dialogue-modeling语言:
计算机处理:
monolingual大小:
1K<n<10K语言创建人:
crowdsourced批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:1909.05358许可:
Taskmaster-1 是一个面向目标的对话数据集。它包含13,215个基于任务的对话,涵盖六个领域。创建此数据集采用了两种不同的方法,每种方法都具有独特的优势。第一种方法是使用两个人的“假扮人类”(Wizard of Oz,WOz)方式,训练的代理人和众包工作人员进行互动以完成任务;第二种方法是“自我对话”,即由众包工作人员自己撰写整个对话。
[需要更多信息]
数据集使用英语。
典型的例子如下所示
{
"conversation_id":"dlg-336c8165-068e-4b4b-803d-18ef0676f668",
"instruction_id":"restaurant-table-2",
"utterances":[
{
"index":0,
"segments":[
],
"speaker":"USER",
"text":"Hi, I'm looking for a place that sells spicy wet hotdogs, can you think of any?"
},
{
"index":1,
"segments":[
{
"annotations":[
{
"name":"restaurant_reservation.name.restaurant.reject"
}
],
"end_index":37,
"start_index":16,
"text":"Spicy Wet Hotdogs LLC"
}
],
"speaker":"ASSISTANT",
"text":"You might enjoy Spicy Wet Hotdogs LLC."
},
{
"index":2,
"segments":[
],
"speaker":"USER",
"text":"That sounds really good, can you make me a reservation?"
},
{
"index":3,
"segments":[
],
"speaker":"ASSISTANT",
"text":"Certainly, when would you like a reservation?"
},
{
"index":4,
"segments":[
{
"annotations":[
{
"name":"restaurant_reservation.num.guests"
},
{
"name":"restaurant_reservation.num.guests"
}
],
"end_index":20,
"start_index":18,
"text":"50"
}
],
"speaker":"USER",
"text":"I have a party of 50 who want a really sloppy dog on Saturday at noon."
}
]
}
数据文件中的每个对话具有以下结构:
每个话语具有以下字段:
每个片段具有以下字段:
每个注释只有一个字段:
one_person_dialogs 配置中的数据被拆分为 train 、 dev 和 test 。
| train | validation | test | |
|---|---|---|---|
| N. Instances | 6168 | 770 | 770 |
woz_dialogs 配置中的数据没有默认的拆分。
| train | |
|---|---|
| N. Instances | 5507 |
[需要更多信息]
[需要更多信息]
初始数据收集和规范化[需要更多信息]
语言的原始产生者是谁?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
注释员是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
数据集基于 Creative Commons Attribution 4.0 License 进行许可
[需要更多信息]
@inproceedings{48484,
title = {Taskmaster-1: Toward a Realistic and Diverse Dialog Dataset},
author = {Bill Byrne and Karthik Krishnamoorthi and Chinnadhurai Sankar and Arvind Neelakantan and Daniel Duckworth and Semih Yavuz and Ben Goodrich and Amit Dubey and Kyu-Young Kim and Andy Cedilnik},
year = {2019}
}
感谢 @patil-suraj 添加了此数据集。