模型:

microsoft/bloom-deepspeed-inference-fp16

英文

这是一个更高效的副本,可以与 DeepSpeed-MII DeepSpeed-Inference 一起使用,以便在8个GPU上运行模型。在这个存储库中,原始张量被拆分为8个碎片,以适应DeepSpeed-inference Tensor Parallelism。

关于BLOOM模型本身的具体细节,请参见 original BLOOM model card

关于如何使用这个存储库的示例,请参见以下内容: