模型:

microsoft/bloom-deepspeed-inference-int8

英文

这是原始 BLOOM weights 的自定义INT8版本,旨在使其在使用Tensor Parallelism的 DeepSpeed-Inference 引擎上快速使用。在这个repo中,张量被分为8个片段,以便针对8个GPU进行处理。

完整的BLOOM文档在 here 中。

要使用repo中的权重,你可以根据需要调整在 here 中找到的脚本(注:一旦迁移到HF Transformers代码库,链接将需要更新)。