数据集:

nlu_evaluation_data

英文

NLU评估数据集的数据卡

数据集摘要

此数据集包含来自对话领域的短语言表达和它们对应的意图和场景注释。

它包含 25,715 个非零示例(原始数据集包含 25,716 个示例),属于 18 个场景和 68 个意图。最初,该数据集是通过众包方式进行注释,包括意图和命名实体,以评估商业 NLU 系统,如 RASA、IBM 的 Watson、Microsoft 的 LUIS 和 Google 的 Dialogflow。但这个数据集的版本只包括意图注释!

与论文中的说法相反,发布的数据包含 68 个唯一的意图。这是因为 NLU 系统是在更加精选的数据集上进行评估的,该数据集只包含了最重要的 64 个意图。详情请阅读 github issue

支持的任务和排行榜

意图分类,意图检测

语言

英文

数据集结构

数据实例

'train' 的一个示例如下:

{
  'label': 2, # integer label corresponding to "alarm_set" intent
  'scenario': 'alarm', 
  'text': 'wake me up at five am this week'
}

数据字段

  • 文本:一个字符串特征。
  • 标签:与唯一意图对应的分类标签(0-67)。
  • 场景:一个包含唯一场景的字符串(18个场景)。

意图名称按以下方式映射到标签:

label intent
0 alarm_query
1 alarm_remove
2 alarm_set
3 audio_volume_down
4 audio_volume_mute
5 audio_volume_other
6 audio_volume_up
7 calendar_query
8 calendar_remove
9 calendar_set
10 cooking_query
11 cooking_recipe
12 datetime_convert
13 datetime_query
14 email_addcontact
15 email_query
16 email_querycontact
17 email_sendemail
18 general_affirm
19 general_commandstop
20 general_confirm
21 general_dontcare
22 general_explain
23 general_greet
24 general_joke
25 general_negate
26 general_praise
27 general_quirky
28 general_repeat
29 iot_cleaning
30 iot_coffee
31 iot_hue_lightchange
32 iot_hue_lightdim
33 iot_hue_lightoff
34 iot_hue_lighton
35 iot_hue_lightup
36 iot_wemo_off
37 iot_wemo_on
38 lists_createoradd
39 lists_query
40 lists_remove
41 music_dislikeness
42 music_likeness
43 music_query
44 music_settings
45 news_query
46 play_audiobook
47 play_game
48 play_music
49 play_podcasts
50 play_radio
51 qa_currency
52 qa_definition
53 qa_factoid
54 qa_maths
55 qa_stock
56 recommendation_events
57 recommendation_locations
58 recommendation_movies
59 social_post
60 social_query
61 takeaway_order
62 takeaway_query
63 transport_query
64 transport_taxi
65 transport_ticket
66 transport_traffic
67 weather_query

数据切分

Dataset statistics Train
Number of examples 25 715
Average character length 34.32
Number of intents 68
Number of scenarios 18

数据集创建

策划理由

该数据集是为了广泛覆盖评估和比较一些最受欢迎的 NLU 服务而准备的。在那时,以前的基准测试只涉及少量的意图和有限数量的领域。在这里,数据集更大,包含来自 18 个场景的 68 个意图,这比以往的任何评估都要大。有关更多讨论,请参阅论文。

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的制作者?

[需要更多信息]

注释

注释过程

为了构建 NLU 组件,我们通过 Amazon Mechanical Turk(AMT)收集了真实用户的数据。我们设计了任务,用户目标是回答关于人们如何与家用机器人互动的问题,这些问题涵盖了事先设计的各种场景,例如:闹钟、音频、有声读物、日历、烹饪、日期时间、电子邮件、游戏、常规、物联网、清单、音乐、新闻、播客、常规问题和答案、广播、推荐、社交、外卖、交通和天气。向 Turker 提出的问题旨在捕捉每个给定场景中的不同请求。例如,在“日历”场景中,预先设计的意图包括“设置事件”、“删除事件”和“查询事件”。对于意图“设置事件”的一个示例问题是:“您会如何要求您的PDA安排与某人的会议?”用户的答案示例可能是“在星期四下午安排与亚当的聊天”。然后,Turker 们会输入答案,并从预设计的建议实体列表中为每个答案选择可能的实体。Turker 们并不总是完全按照说明进行操作,例如,对于指定的“删除事件”意图,一个答案是:“PDA,我下一个事件是什么?”;很明显这属于“查询事件”意图。我们已经手动纠正了所有这样的错误,无论是在后处理过程中还是在随后的注释中。

谁是标注者?

[需要更多信息]

个人信息和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

此数据集的目的是帮助开发更好的意图检测系统。

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

知识共享署名4.0国际许可协议(CC BY 4.0)

引用信息

@InProceedings{XLiu.etal:IWSDS2019,
  author    = {Xingkun Liu, Arash Eshghi, Pawel Swietojanski and Verena Rieser},
  title     = {Benchmarking Natural Language Understanding Services for building Conversational Agents},
  booktitle = {Proceedings of the Tenth International Workshop on Spoken Dialogue Systems Technology (IWSDS)},
  month     = {April},
  year      = {2019},
  address   = {Ortigia, Siracusa (SR), Italy},
  publisher = {Springer},
  pages     = {xxx--xxx},
  url       = {http://www.xx.xx/xx/}
}

贡献

感谢 @dkajtoch 添加了这个数据集。