数据集:
inkoziev/incomplete_utterance_restoration
"Incomplete Utterance Restoration" 的详细描述可以在生成模型 inkoziev/rugpt_interpreter 的卡片中找到,该模型是在该数据集的增强版本上进行训练的。
数据集包含长度为1到3个连续话语的对话片段。对于最后一个话语,给出了完整的版本,其中包括了指代、省略等内容。
例如,以下示例:
{
"context": ["Добрый день, давай поговорим?"],
"short_phrase": "добрый день, давай",
"expanded_phrase": "Давай поговорим"
}
对应于对话片段:
- Добрый день, давай поговорим? - добрый день, давай
对于最后一个话语 "добрый день, давай", 给出了其完整版本 "Давай поговорим".
对于包含三个话语的片段,字段 context 将包含两个元素:
{
"context": [
"Что-то зрителей полный инет, а изучителей не видать.",
"Ты кем себя считаешь: зрителем или изучателем?"
],
"short_phrase": "изучателем",
"expanded_phrase": "я считаю себя изучателем"
},
此示例对应于对话片段:
- Что-то зрителей полный инет, а изучителей не видать. - Ты кем себя считаешь: зрителем или изучателем? - изучателем
对于最后一个话语给出了完整形式 "я считаю себя изучателем".
很多样本中,礼貌的第二人称复数 "Вы" 在揭示后的版本中被规范为 "你"。
存在粗俗词汇、侮辱等内容。
我为实验而收集了这个数据集,用于 диалоговыми системами 。如果您以任何方式使用它,请链接到此页面。