数据集:
miam
计算机处理:
multilingual大小:
10K<n<100K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original许可:
多语言对话行为基准是一个用于训练、评估和分析自然语言理解系统的资源集合,专门设计用于口语。数据集包括英语、法语、德语、意大利语和西班牙语。它们涵盖了各种领域,包括自发言语、脚本场景和联合任务完成。所有数据集都包含对话行为标签。
[需要更多信息]
英语、法语、德语、意大利语、西班牙语。
对于dihana配置,数据集中的一个示例是:
{
  'Speaker': 'U',
  'Utterance': 'Hola , quería obtener el horario para ir a Valencia',
  'Dialogue_Act': 9,  # 'Pregunta' ('Request')
  'Dialogue_ID': '0',
  'File_ID': 'B209_BA5c3',
}
 iLISTEN语料库 对于ilisten配置,数据集中的一个示例是:
{
  'Speaker': 'T_11_U11',
  'Utterance': 'ok, grazie per le informazioni',
  'Dialogue_Act': 6,  # 'KIND-ATTITUDE_SMALL-TALK'
  'Dialogue_ID': '0',
}
 LORIA语料库 对于loria配置,数据集中的一个示例是:
{
  'Speaker': 'Samir',
  'Utterance': 'Merci de votre visite, bonne chance, et à la prochaine !',
  'Dialogue_Act': 21,  # 'quit'
  'Dialogue_ID': '5',
  'File_ID': 'Dial_20111128_113927',
}
 HCRC MapTask语料库 对于maptask配置,数据集中的一个示例是:
{
  'Speaker': 'f',
  'Utterance': 'is it underneath the rope bridge or to the left',
  'Dialogue_Act': 6,  # 'query_w'
  'Dialogue_ID': '0',
  'File_ID': 'q4ec1',
}
 VERBMOBIL语料库 对于vm2配置,数据集中的一个示例是:
{
  'Utterance': 'ja was sind viereinhalb Stunden Bahngerüttel gegen siebzig Minuten Turbulenzen im Flugzeug',
  'Utterance': 'Utterance',
  'Dialogue_Act': 'Dialogue_Act',  # 'INFORM'
  'Speaker': 'A',
  'Dialogue_ID': '66',
}
 对于dihana配置,不同字段如下:
对于ilisten配置,不同字段如下:
对于loria配置,不同字段如下:
对于maptask配置,不同字段如下:
对于vm2配置,不同字段如下:
| Dataset name | Train | Valid | Test | 
|---|---|---|---|
| dihana | 19063 | 2123 | 2361 | 
| ilisten | 1986 | 230 | 971 | 
| loria | 8465 | 942 | 1047 | 
| maptask | 25382 | 5221 | 5335 | 
| vm2 | 25060 | 2860 | 2855 | 
[需要更多信息]
[需要更多信息]
谁是源语言生产者?[需要更多信息]
[需要更多信息]
谁是标注者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
匿名。
本作品采用 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 Unported License 许可。
@inproceedings{colombo-etal-2021-code,
    title = "Code-switched inspired losses for spoken dialog representations",
    author = "Colombo, Pierre  and
      Chapuis, Emile  and
      Labeau, Matthieu  and
      Clavel, Chlo{\'e}",
    booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2021",
    address = "Online and Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.emnlp-main.656",
    doi = "10.18653/v1/2021.emnlp-main.656",
    pages = "8320--8337",
    abstract = "Spoken dialogue systems need to be able to handle both multiple languages and multilinguality inside a conversation (\textit{e.g} in case of code-switching). In this work, we introduce new pretraining losses tailored to learn generic multilingual spoken dialogue representations. The goal of these losses is to expose the model to code-switched language. In order to scale up training, we automatically build a pretraining corpus composed of multilingual conversations in five different languages (French, Italian, English, German and Spanish) from OpenSubtitles, a huge multilingual corpus composed of 24.3G tokens. We test the generic representations on MIAM, a new benchmark composed of five dialogue act corpora on the same aforementioned languages as well as on two novel multilingual tasks (\textit{i.e} multilingual mask utterance retrieval and multilingual inconsistency identification). Our experiments show that our new losses achieve a better performance in both monolingual and multilingual settings.",
}
 感谢 @eusip 和 @PierreColombo 添加此数据集。