数据集:

nlu_evaluation_data

任务:

文本分类

子任务:

intent-classification multi-class-classification

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:1903.05566

许可:

cc-by-4.0

数据集介绍文件清单

英文

NLU评估数据集的数据卡

数据集摘要

此数据集包含来自对话领域的短语言表达和它们对应的意图和场景注释。

它包含 25,715 个非零示例（原始数据集包含 25,716 个示例），属于 18 个场景和 68 个意图。最初，该数据集是通过众包方式进行注释，包括意图和命名实体，以评估商业 NLU 系统，如 RASA、IBM 的 Watson、Microsoft 的 LUIS 和 Google 的 Dialogflow。但这个数据集的版本只包括意图注释！

与论文中的说法相反，发布的数据包含 68 个唯一的意图。这是因为 NLU 系统是在更加精选的数据集上进行评估的，该数据集只包含了最重要的 64 个意图。详情请阅读 github issue 。

支持的任务和排行榜

意图分类，意图检测

语言

英文

数据集结构

数据实例

'train' 的一个示例如下：

{
  'label': 2, # integer label corresponding to "alarm_set" intent
  'scenario': 'alarm', 
  'text': 'wake me up at five am this week'
}

数据字段

文本：一个字符串特征。
标签：与唯一意图对应的分类标签（0-67）。
场景：一个包含唯一场景的字符串（18个场景）。

意图名称按以下方式映射到标签：

label	intent
0	alarm_query
1	alarm_remove
2	alarm_set
3	audio_volume_down
4	audio_volume_mute
5	audio_volume_other
6	audio_volume_up
7	calendar_query
8	calendar_remove
9	calendar_set
10	cooking_query
11	cooking_recipe
12	datetime_convert
13	datetime_query
14	email_addcontact
15	email_query
16	email_querycontact
17	email_sendemail
18	general_affirm
19	general_commandstop
20	general_confirm
21	general_dontcare
22	general_explain
23	general_greet
24	general_joke
25	general_negate
26	general_praise
27	general_quirky
28	general_repeat
29	iot_cleaning
30	iot_coffee
31	iot_hue_lightchange
32	iot_hue_lightdim
33	iot_hue_lightoff
34	iot_hue_lighton
35	iot_hue_lightup
36	iot_wemo_off
37	iot_wemo_on
38	lists_createoradd
39	lists_query
40	lists_remove
41	music_dislikeness
42	music_likeness
43	music_query
44	music_settings
45	news_query
46	play_audiobook
47	play_game
48	play_music
49	play_podcasts
50	play_radio
51	qa_currency
52	qa_definition
53	qa_factoid
54	qa_maths
55	qa_stock
56	recommendation_events
57	recommendation_locations
58	recommendation_movies
59	social_post
60	social_query
61	takeaway_order
62	takeaway_query
63	transport_query
64	transport_taxi
65	transport_ticket
66	transport_traffic
67	weather_query

数据切分

Dataset statistics	Train
Number of examples	25 715
Average character length	34.32
Number of intents	68
Number of scenarios	18

数据集创建

策划理由

该数据集是为了广泛覆盖评估和比较一些最受欢迎的 NLU 服务而准备的。在那时，以前的基准测试只涉及少量的意图和有限数量的领域。在这里，数据集更大，包含来自 18 个场景的 68 个意图，这比以往的任何评估都要大。有关更多讨论，请参阅论文。

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的制作者？

[需要更多信息]

注释

注释过程

为了构建 NLU 组件，我们通过 Amazon Mechanical Turk（AMT）收集了真实用户的数据。我们设计了任务，用户目标是回答关于人们如何与家用机器人互动的问题，这些问题涵盖了事先设计的各种场景，例如：闹钟、音频、有声读物、日历、烹饪、日期时间、电子邮件、游戏、常规、物联网、清单、音乐、新闻、播客、常规问题和答案、广播、推荐、社交、外卖、交通和天气。向 Turker 提出的问题旨在捕捉每个给定场景中的不同请求。例如，在“日历”场景中，预先设计的意图包括“设置事件”、“删除事件”和“查询事件”。对于意图“设置事件”的一个示例问题是：“您会如何要求您的PDA安排与某人的会议？”用户的答案示例可能是“在星期四下午安排与亚当的聊天”。然后，Turker 们会输入答案，并从预设计的建议实体列表中为每个答案选择可能的实体。Turker 们并不总是完全按照说明进行操作，例如，对于指定的“删除事件”意图，一个答案是：“PDA，我下一个事件是什么？”；很明显这属于“查询事件”意图。我们已经手动纠正了所有这样的错误，无论是在后处理过程中还是在随后的注释中。

谁是标注者？

[需要更多信息]

个人信息和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

此数据集的目的是帮助开发更好的意图检测系统。

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

知识共享署名4.0国际许可协议（CC BY 4.0）

引用信息

@InProceedings{XLiu.etal:IWSDS2019,
  author    = {Xingkun Liu, Arash Eshghi, Pawel Swietojanski and Verena Rieser},
  title     = {Benchmarking Natural Language Understanding Services for building Conversational Agents},
  booktitle = {Proceedings of the Tenth International Workshop on Spoken Dialogue Systems Technology (IWSDS)},
  month     = {April},
  year      = {2019},
  address   = {Ortigia, Siracusa (SR), Italy},
  publisher = {Springer},
  pages     = {xxx--xxx},
  url       = {http://www.xx.xx/xx/}
}

贡献

感谢 @dkajtoch 添加了这个数据集。

作者:

佚名

数据集大小:

24.44 KB