数据集:
silver/personal_dialog
任务:
子任务:
dialogue-generation语言:
计算机处理:
monolingual大小:
10M<n<100M语言创建人:
found批注创建人:
no-annotation源数据集:
original预印本库:
arxiv:1901.09672许可:
个人对话数据集是一个大规模的多轮中文对话数据集,涵盖了大量说话者的各种特征。我们发布了约500万个经过精心筛选的对话。PersonalDialog中的每个话语都与具有性别、地点、兴趣标签等特征的发言者相关联。
PersonalDialog数据集为中文。
PersonalDialog中的对话是中文的。
train集:
{
"dialog": ["那么 晚", "加班 了 刚 到 家 呀 !", "吃饭 了 么", "吃 过 了 !"],
"profile": [
{
"tag": ["间歇性神经病", "爱笑的疯子", "他们说我犀利", "爱做梦", "自由", "旅游", "学生", "双子座", "好性格"],
"loc": "福建 厦门", "gender": "male"
}, {
"tag": ["设计师", "健康养生", "热爱生活", "善良", "宅", "音樂", "时尚"],
"loc": "山东 济南", "gender": "male"
}
],
"uid": [0, 1, 0, 1],
}
dev和test集:
{
"dialog": ["没 人性 啊 !", "可以 来 组织 啊", "来 上海 陪姐 打 ?"],
"profile": [
{"tag": [""], "loc": "上海 浦东新区", "gender": "female"},
{"tag": ["嘉庚", "keele", "leicester", "UK", "泉州五中"], "loc": "福建 泉州", "gender": "male"},
],
"uid": [0, 1, 0],
"responder_profile": {"tag": ["嘉庚", "keele", "leicester", "UK", "泉州五中"], "loc": "福建 泉州", "gender": "male"},
"golden_response": "吴经理 派车来 小 泉州 接 么 ?",
"is_biased": true,
}
| train | valid | test |
|---|---|---|
| 5,438,165 | 10,521 | 10,523 |
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
other-weibo
该数据集是从微博收集的。使用该数据集请参考所需的 detailed policy 。请将此数据集的使用限制在非商业用途上。
@article{zheng2019personalized,
title = {Personalized dialogue generation with diversified traits},
author = {Zheng, Yinhe and Chen, Guanyi and Huang, Minlie and Liu, Song and Zhu, Xuan},
journal = {arXiv preprint arXiv:1901.09672},
year = {2019}
}
@inproceedings{zheng2020pre,
title = {A pre-training based personalized dialogue generation model with persona-sparse data},
author = {Zheng, Yinhe and Zhang, Rongsheng and Huang, Minlie and Mao, Xiaoxi},
booktitle = {Proceedings of the AAAI Conference on Artificial Intelligence},
volume = {34},
number = {05},
pages = {9693--9700},
year = {2020}
}
感谢 Yinhe Zheng 添加了这个数据集。