英文

数据集介绍:Bactrian-X

A. 数据集描述

数据集概述

Bactrian-X 数据集是一个包含52种语言的340万个指令-回复对的集合,其中通过使用Google翻译API将6.7万个英文指令( alpaca-52k + dolly-15k )翻译成51种语言。然后,将翻译后的指令输入ChatGPT(gpt-3.5-turbo)以获取其自然回复,从而得到52种语言的340万个指令-回复对(52种语言 × 6.7万个实例 = 340万个实例)。

语言

我们使用了 mBART-50 中的52种语言,详细信息可以在下面找到。

B. 数据集结构

数据字段

数据字段如下:

  • 指令:描述模型应执行的任务。每个6.7万个指令都是唯一的。
  • 输入:任务的可选上下文或输入。例如,当指令是“总结以下文章”时,输入是文章。约40%的示例具有输入。
  • 输出:由gpt-3.5-turbo生成的指令答案。
  • ID:特定语言中每个数据单元的唯一索引。相同的ID在数据分割中对应于相同的原始英文数据。

数据实例

英文示例如下所示。

{
"instruction": "What is the main idea of this text?", 
"input": "The robotics industry has become one of the fastest growing sectors in today’s economy. Robotics technology is being applied in various industries and applications, such as manufacturing, healthcare, and defense.", 
"output": "The main idea of the text is that the robotics industry is rapidly growing and its technology is being used in many different industries and applications.", 
"id": "alpaca-107"
}

阿拉伯文示例如下所示。

{
"instruction": "قم بالوصول إلى إعدادات المتصفح الافتراضية على جهاز الكمبيوتر.", 
"input": "",  
"output": "لا يمكن لي كمساعد افتراضي القيام بهذه المهمة كونها تحتاج إلى الوصول إلى الجهاز المادي. يرجى الرجوع إلى دليل المستخدم للكمبيوتر الخاص بك أو البحث على الإنترنت لمعرفة كيفية الوصول إلى إعدادات المتصفح الافتراضية على جهاز الكمبيوتر الخاص بك.",
"id": "alpaca-41997"
}

印度尼西亚文示例如下所示。

{
"instruction": "Berapa banyak angka penting yang harus digunakan untuk nilai 0,000187?", 
"input": "",  
"output": "Ada tiga angka penting dalam nilai 0,000187.",
"id": "alpaca-40382"
}

德文示例如下所示。

{
"instruction": "Komponieren Sie ein Musikstück mit einem Titel, der Trauer bezeichnet.", 
"input": "", 
"output": ""Schmerzendes Herz"\n\nDas Stück beginnt mit einer langsamen, traurigen Melodie, gespielt von einem Solo-Violoncello. Die Harmonien, die von einem Klavier begleitet werden, sind durcheinander und dissonant, um ein Gefühl von Schmerz und Trauer zu vermitteln.\n\nIm Laufe des Stücks treten andere Instrumente ein, wie Streicher, Flöte und Oboe, um die Melodie zu unterstützen und zu intensivieren. Der Rhythmus bleibt langsam und schwerfällig, um die Schwere des Schmerzes darzustellen.\n\nIn der Mitte des Stücks gibt es einen Höhepunkt, wo die Melodie und Harmonien sich verdichten und ein Gefühl von Überwältigung erzeugen. Der Solo-Violoncello spielt eine traurige und schnelle Phrase, die die Verzweiflung und Isolation des Protagonisten ausdrückt.\n\nDas Stück endet mit einer Wiederholung der ersten Melodie, gespielt von einem Solo-Klavier, während die anderen Instrumente auslaufen. Die Harmonien werden jedoch weicher und sanfter, um einen Hauch von Hoffnung zu vermitteln, dass der Schmerz langsam vergeht.",
"id": "alpaca-33619"
}

法文示例如下所示。

{
"instruction": "Les Ceanothus ont-ils des racines peu profondes ?", 
"input": "",
"output": "En tant qu'IA, je ne peux pas répondre avec une certitude absolue, mais voici des informations générales sur les racines de Ceanothus : \n\nLes Ceanothus ont tendance à avoir un système racinaire étendu et peu profond. Les racines peuvent s'étaler jusqu'à 4 à 6 fois la taille de la plante et s'étendre à environ 60 à 90 cm de profondeur. Cependant, cela peut varier en fonction du type de sol et de la variété de Ceanothus. Certaines variétés de Ceanothus pourraient avoir des racines plus profondes si les conditions s'y prêtent.",
"id": "dolly-10940"
}

52种语言的数据

No Languages Code Train
1 12311321 af_ZA 67017
2 12312321 ar_AR 67017
3 12313321 az_AZ 67017
4 12314321 bn_IN 67017
5 12315321 cs_CZ 67017
6 12316321 de_DE 67017
7 12317321 en_XX 67017
8 12318321 es_XX 67017
9 12319321 et_EE 67017
10 12320321 fa_IR 67017
11 12321321 fi_FI 67017
12 12322321 fr_XX 67017
13 12323321 gl_ES 67017
14 12324321 gu_IN 67017
15 12325321 he_IL 67017
16 12326321 hi_IN 67017
17 12327321 hr_HR 67017
18 12328321 id_ID 67017
19 12329321 it_IT 67017
20 12330321 ja_XX 67017
21 12331321 ka_GE 67017
22 12332321 kk_KZ 67017
23 12333321 km_KH 67017
24 12334321 ko_KR 67017
25 12335321 lt_LT 67017
26 12336321 lv_LV 67017
27 12337321 mk_MK 67017
28 12338321 ml_IN 67017
29 12339321 mn_MN 67017
30 12340321 mr_IN 67017
31 12341321 my_MM 67017
32 12342321 ne_NP 67017
33 12343321 nl_XX 67017
34 12344321 pl_PL 67017
35 12345321 ps_AF 67017
36 12346321 pt_XX 67017
37 12347321 ro_RO 67017
38 12348321 ru_RU 67017
39 12349321 si_LK 67017
40 12350321 sl_SI 67017
41 12351321 sv_SE 67017
42 12352321 sw_KE 67017
43 12353321 ta_IN 67017
44 12354321 te_IN 67017
45 12355321 th_TH 67017
46 12356321 tl_XX 67017
47 12357321 tr_TR 67017
48 12358321 uk_UA 67017
49 12359321 ur_PK 67017
50 12360321 vi_VN 67017
51 12361321 xh_ZA 67017
52 12362321 zh_CN 67017

C. 数据集创建

  • 英文指令:英文指令来自 alpaca-53k dolly-15k
  • 指令翻译:使用Google翻译API将指令(和输入)翻译为51种语言(于2023年4月进行)。
  • 输出生成:为每种语言生成gpt-3.5-turbo的输出(于2023年4月进行)。
  • D. 使用数据的注意事项

    数据集的社会影响

    NLP服务于所有人:该数据集有助于在52种语言中实现最先进的指令跟随模型的民主化。该数据集还可以对多语言LoRA-based LLaMA模型进行首次实验。

    偏差讨论

    (1)翻译偏差;(2)翻译数据集中存在潜在的英语文化偏差。

    其他已知限制

    Bactrian-X数据集由语言模型(gpt-3.5-turbo)生成,不可避免地包含一些错误或偏差。我们鼓励用户谨慎使用此数据,并提出新的方法来过滤或改善其中的缺陷。

    E. 附加信息

    数据集创建者

    Haonan Li Fajri Koto

    许可信息

    该数据集可在 Creative Commons NonCommercial (CC BY-NC 4.0) 下获得。

    引用信息

    @misc{li2023bactrianx,
          title={Bactrian-X : A Multilingual Replicable Instruction-Following Model with Low-Rank Adaptation}, 
          author={Haonan Li and Fajri Koto and Minghao Wu and Alham Fikri Aji and Timothy Baldwin},
          year={2023},
          eprint={2305.15011},
          archivePrefix={arXiv},
          primaryClass={cs.CL}
    }
    

    贡献

    感谢 @haonan-li @fajri91 添加此数据集。