数据集:
nlu_evaluation_data
任务:
语言:
计算机处理:
monolingual大小:
10K<n<100K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:1903.05566许可:
此数据集包含来自对话领域的短语言表达和它们对应的意图和场景注释。
它包含 25,715 个非零示例(原始数据集包含 25,716 个示例),属于 18 个场景和 68 个意图。最初,该数据集是通过众包方式进行注释,包括意图和命名实体,以评估商业 NLU 系统,如 RASA、IBM 的 Watson、Microsoft 的 LUIS 和 Google 的 Dialogflow。但这个数据集的版本只包括意图注释!
与论文中的说法相反,发布的数据包含 68 个唯一的意图。这是因为 NLU 系统是在更加精选的数据集上进行评估的,该数据集只包含了最重要的 64 个意图。详情请阅读 github issue 。
意图分类,意图检测
英文
'train' 的一个示例如下:
{
'label': 2, # integer label corresponding to "alarm_set" intent
'scenario': 'alarm',
'text': 'wake me up at five am this week'
}
意图名称按以下方式映射到标签:
| label | intent |
|---|---|
| 0 | alarm_query |
| 1 | alarm_remove |
| 2 | alarm_set |
| 3 | audio_volume_down |
| 4 | audio_volume_mute |
| 5 | audio_volume_other |
| 6 | audio_volume_up |
| 7 | calendar_query |
| 8 | calendar_remove |
| 9 | calendar_set |
| 10 | cooking_query |
| 11 | cooking_recipe |
| 12 | datetime_convert |
| 13 | datetime_query |
| 14 | email_addcontact |
| 15 | email_query |
| 16 | email_querycontact |
| 17 | email_sendemail |
| 18 | general_affirm |
| 19 | general_commandstop |
| 20 | general_confirm |
| 21 | general_dontcare |
| 22 | general_explain |
| 23 | general_greet |
| 24 | general_joke |
| 25 | general_negate |
| 26 | general_praise |
| 27 | general_quirky |
| 28 | general_repeat |
| 29 | iot_cleaning |
| 30 | iot_coffee |
| 31 | iot_hue_lightchange |
| 32 | iot_hue_lightdim |
| 33 | iot_hue_lightoff |
| 34 | iot_hue_lighton |
| 35 | iot_hue_lightup |
| 36 | iot_wemo_off |
| 37 | iot_wemo_on |
| 38 | lists_createoradd |
| 39 | lists_query |
| 40 | lists_remove |
| 41 | music_dislikeness |
| 42 | music_likeness |
| 43 | music_query |
| 44 | music_settings |
| 45 | news_query |
| 46 | play_audiobook |
| 47 | play_game |
| 48 | play_music |
| 49 | play_podcasts |
| 50 | play_radio |
| 51 | qa_currency |
| 52 | qa_definition |
| 53 | qa_factoid |
| 54 | qa_maths |
| 55 | qa_stock |
| 56 | recommendation_events |
| 57 | recommendation_locations |
| 58 | recommendation_movies |
| 59 | social_post |
| 60 | social_query |
| 61 | takeaway_order |
| 62 | takeaway_query |
| 63 | transport_query |
| 64 | transport_taxi |
| 65 | transport_ticket |
| 66 | transport_traffic |
| 67 | weather_query |
| Dataset statistics | Train |
|---|---|
| Number of examples | 25 715 |
| Average character length | 34.32 |
| Number of intents | 68 |
| Number of scenarios | 18 |
该数据集是为了广泛覆盖评估和比较一些最受欢迎的 NLU 服务而准备的。在那时,以前的基准测试只涉及少量的意图和有限数量的领域。在这里,数据集更大,包含来自 18 个场景的 68 个意图,这比以往的任何评估都要大。有关更多讨论,请参阅论文。
[需要更多信息]
谁是源语言的制作者?[需要更多信息]
为了构建 NLU 组件,我们通过 Amazon Mechanical Turk(AMT)收集了真实用户的数据。我们设计了任务,用户目标是回答关于人们如何与家用机器人互动的问题,这些问题涵盖了事先设计的各种场景,例如:闹钟、音频、有声读物、日历、烹饪、日期时间、电子邮件、游戏、常规、物联网、清单、音乐、新闻、播客、常规问题和答案、广播、推荐、社交、外卖、交通和天气。向 Turker 提出的问题旨在捕捉每个给定场景中的不同请求。例如,在“日历”场景中,预先设计的意图包括“设置事件”、“删除事件”和“查询事件”。对于意图“设置事件”的一个示例问题是:“您会如何要求您的PDA安排与某人的会议?”用户的答案示例可能是“在星期四下午安排与亚当的聊天”。然后,Turker 们会输入答案,并从预设计的建议实体列表中为每个答案选择可能的实体。Turker 们并不总是完全按照说明进行操作,例如,对于指定的“删除事件”意图,一个答案是:“PDA,我下一个事件是什么?”;很明显这属于“查询事件”意图。我们已经手动纠正了所有这样的错误,无论是在后处理过程中还是在随后的注释中。
谁是标注者?[需要更多信息]
[需要更多信息]
此数据集的目的是帮助开发更好的意图检测系统。
[需要更多信息]
[需要更多信息]
[需要更多信息]
知识共享署名4.0国际许可协议(CC BY 4.0)
@InProceedings{XLiu.etal:IWSDS2019,
author = {Xingkun Liu, Arash Eshghi, Pawel Swietojanski and Verena Rieser},
title = {Benchmarking Natural Language Understanding Services for building Conversational Agents},
booktitle = {Proceedings of the Tenth International Workshop on Spoken Dialogue Systems Technology (IWSDS)},
month = {April},
year = {2019},
address = {Ortigia, Siracusa (SR), Italy},
publisher = {Springer},
pages = {xxx--xxx},
url = {http://www.xx.xx/xx/}
}
感谢 @dkajtoch 添加了这个数据集。