模型:

facebook/opt-iml-1.3b

英文

OPT-IML

模型描述

OPT-IML (OPT + Instruction Meta-Learning) 是对 OPT 的一组经过指令调整的版本,应用于 OPT-IML Bench 这个由 8 个自然语言处理基准组成的约 2000 个 NLP 任务集合。

我们提供两个模型版本:

  • 在 1500 个任务上训练的 OPT-IML,其中有几个任务被保留用于下游评估,以及
  • 在所有约 2000 个任务上训练的 OPT-IML-Max

如何使用

您可以直接使用此模型进行文本生成流程。

>>> from transformers import pipeline

>>> generator = pipeline('text-generation', model="facebook/opt-iml-1.3b")

>>> generator("What is the capital of USA?")

限制和偏见

虽然 OPT-IML 模型在广泛的评估中优于基准 OPT,但仍会受到使用大型语言模型的各种风险的影响,包括事实正确性、生成有害语言和引发刻板印象。尽管我们发布 OPT-IML 模型以促进指令调整的未来工作,并改善大型指令调整因果语言模型的可用性,但使用这些模型应遵循负责任的最佳实践。

训练数据

OPT-IML 模型是在 OPT-IML Bench 上进行训练的,这是一个包含来自 8 个现有基准(包括 Super-NaturalInstructions、FLAN、PromptSource 等)的约 2000 个 NLP 任务的大型基准集。

训练过程

使用 GPT2 的字节级 Byte Pair Encoding (BPE)(用于 Unicode 字符)对文本进行标记化,词汇量为 50272。输入为长度为 2048 的连续标记序列。

30B 模型在 64 个 40GB A100 GPU 上进行了微调。在微调期间,模型大约看到了 20亿个标记,仅占 OPT 预训练预算的 0.6%。

BibTeX 条目和引用信息

@misc{iyer2022opt,
      title={OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization}, 
      author={Iyer, Srinivasan and Lin, Xi Victoria and Pasunuru, Ramakanth and Mihaylov, Todor and Simig, D{\'a}niel and Yu, Ping and Shuster, Kurt and Wang, Tianlu and Liu, Qing and Koura, Punit Singh and others},
      year={2022},
      eprint={2212.12017},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}