数据集用于对话上下文中不完整话语的揭示任务

"Incomplete Utterance Restoration" 的详细描述可以在生成模型 inkoziev/rugpt_interpreter 的卡片中找到，该模型是在该数据集的增强版本上进行训练的。

数据集包含长度为1到3个连续话语的对话片段。对于最后一个话语，给出了完整的版本，其中包括了指代、省略等内容。

例如，以下示例:

    {
        "context": ["Добрый день, давай поговорим?"],
        "short_phrase": "добрый день, давай",
        "expanded_phrase": "Давай поговорим"
    }

对应于对话片段:

- Добрый день, давай поговорим?
- добрый день, давай

对于最后一个话语 "добрый день, давай", 给出了其完整版本 "Давай поговорим".

对于包含三个话语的片段，字段 context 将包含两个元素:

    {
        "context": [
            "Что-то зрителей полный инет, а изучителей не видать.",
            "Ты кем себя считаешь: зрителем или изучателем?"
        ],
        "short_phrase": "изучателем",
        "expanded_phrase": "я считаю себя изучателем"
    },

此示例对应于对话片段:

- Что-то зрителей полный инет, а изучителей не видать.
- Ты кем себя считаешь: зрителем или изучателем?
- изучателем

对于最后一个话语给出了完整形式 "я считаю себя изучателем".

数据集特点

很多样本中，礼貌的第二人称复数 "Вы" 在揭示后的版本中被规范为 "你"。

存在粗俗词汇、侮辱等内容。

链接、引用

我为实验而收集了这个数据集，用于 диалоговыми системами 。如果您以任何方式使用它，请链接到此页面。

作者:

inkoziev

数据集大小:

29.48 MB