英文

Pythia Scaling Suite 是一个用于促进可解释性研究的模型集合。它包含两组八个模型,大小分别为70M、160M、410M、1B、1.4B、2.8B、6.9B和12B。每个大小都有两个模型:一个在 Pile 上训练,一个在全局去重后的 Pile 上训练。所有8个模型大小都使用相同的数据以完全相同的顺序进行训练。所有 Pythia 模型均可在 on Hugging Face 上获得。

Pythia 模型套件是为了促进大型语言模型的科学研究,特别是可解释性研究而特意设计的。尽管并未将下游性能作为设计目标,但我们发现这些模型的性能与 OPT 和 GPT-Neo 套件中的类似大小的模型相匹配或超过。

请注意,所有 Pythia 套件中的模型于2023年1月更名。为了清晰起见,这个模型卡片中提供了旧名称和新名称的对照表,以及精确的参数计数。