模型:

pythainlp/wangchanglm-7.5B-sft-enth

任务:

类库:

数据集:

laion/OIG Hello-SimpleAI/HC3 databricks/databricks-dolly-15k 3Adatabricks/databricks-dolly-15k 3AHello-SimpleAI/HC3 3Alaion/OIG

语言:

其他:

xglm

许可:

cc-by-sa-4.0

模型介绍文件清单

英文

WangChanGLM 🐘 多语言指令跟随模型的模型卡片

WangChanGLM是一个多语言、通过开源、商业许可的数据集（LAION OIG chip2和infill_dbpedia，DataBricks Dolly v2，OpenAI TL;DR和Hello-SimpleAI HC3；约400k个样本）对Facebook XGLM-7.5B进行细调的模型，发布在CC-BY SA 4.0下。这些模型经过训练，用于执行我们认为最相关的一些指令跟随任务，包括阅读理解、头脑风暴和创造性写作。我们提供了一个在仅英语数据集上进行细调的模型权重（ wangchanglm-7.5B-sft-en ）和另一个在谷歌翻译的泰语数据集上进一步进行细调的检查点（ wangchanglm-7.5B-sft-enth ）。我们使用人类和ChatGPT（在我们的情况下，是gpt-3.5-turbo，因为我们仍在等待gpt-4）进行Vicuna风格的评估，并观察到两种类型的注释者之间的一些差异。所有训练和评估代码都在我们的Github上共享，以及数据集和模型权重（ HuggingFace ）。与 Dolly v2 类似，我们只使用开源的、有商业许可的预训练模型和数据集，我们的模型既没有像使用LLaMA作为基础的模型那样受到非商业条款的限制，也没有像使用ChatGPT自我指导的数据集的模型那样受到非竞争条款的限制。请查看我们的实时演示 here 。

开发者： PyThaiNLP 和 VISTEC-depa AI Research Institute of Thailand
模型类型：细调 XGLM-7.5B
语言（NLP）： en ， th ， ja ， vi评估的能力，理论上支持 XGLM-7.5B 的所有30种语言
许可证： CC-BY SA 4.0

模型来源

存储库： pythainlp/wangchanglm
博客： Medium
演示： Colab notebook

用途

直接使用

用作阅读理解、头脑风暴和创造性写作的指令跟随模型。

下游使用

该模型可以进行细调，以适应任何典型的指令跟随用例。

超出范围的用途

我们不希望模型在数学问题、推理和事实准确性方面表现出色。我们有意筛选出这些用例的训练示例。

偏见、风险和限制

我们注意到与其他细调的指令跟随模型类似的限制，如数学问题、推理和事实准确性。尽管模型的滥用程度未达到我们的预期，但它们确实包含不可取的偏见和有害性，应进一步针对您的特定用例进行优化。

如何开始使用模型

使用下面的代码开始使用模型。

model_name = "pythainlp/wangchanglm-7.5B-sft-en"
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    return_dict=True, 
    load_in_8bit=True ,
    device_map="auto", 
    torch_dtype=torch.float16, 
    offload_folder="./", 
    low_cpu_mem_usage=True,
)
text = "เล่นหุ้นยังไงให้รวย"
tokenizer = AutoTokenizer.from_pretrained(model_name)
batch = tokenizer(text, return_tensors="pt")
with torch.cuda.amp.autocast(): 
  output_tokens = model.generate(
      input_ids=batch["input_ids"],
      max_new_tokens=max_gen_len, # 512
      begin_suppress_tokens = exclude_ids,
      no_repeat_ngram_size=2,
      
      #oasst k50
      top_k=50,
      top_p=top_p, # 0.95
      typical_p=1.,
      temperature=temperature, # 0.9
      
      # #oasst typical3
      # typical_p = 0.3,
      # temperature = 0.8,
      # repetition_penalty = 1.2,
  )
tokenizer.decode(output_tokens[0], skip_special_tokens=True)

训练详细信息

训练数据

微调数据集来自 LAION OIG chip2 and infill_dbpedia （ Apache-2.0 ）、 DataBricks Dolly v2 （ Apache-2.0 ）、 OpenAI TL;DR （ MIT ）和 Hello-SimpleAI HC3 （ CC-BY SA ）。

训练过程

Preprocessing

请参阅 pythainlp/wangchanglm 。

Training Hyperparameters

训练体制：使用4个GPU的LoRA。有关更多详细信息，请参见 pythainlp/wangchanglm 。

评估

我们进行了自动评估，风格类似于 Vicuna ，并进行了人工评估。请从我们的 blog 查看更多详细信息。

环境影响

实验是在私有基础设施上进行的，其碳效率为0.432 kgCO2eq/kWh。在Tesla V100-SXM2-32GB（TDP为300W）型号硬件上进行了总计500小时的计算。总排放估计为64.8 CO2eq，其中0％是直接抵消的。估计使用 MachineLearning Impact calculator 进行。

引用

BibTeX:

@software{charin_polpanumas_2023_7878101,
  author       = {Charin Polpanumas and
                  Wannaphong Phatthiyaphaibun and
                  Patomporn Payoungkhamdee and
                  Peerat Limkonchotiwat and
                  Lalita Lowphansirikul and
                  Can Udomcharoenchaikit and
                  Titipat Achakulwisut and
                  Ekapol Chuangsuwanich and
                  Sarana Nutanong},
  title        = {{WangChanGLM🐘 — The Multilingual Instruction- 
                   Following Model}},
  month        = apr,
  year         = 2023,
  publisher    = {Zenodo},
  version      = {v0.1},
  doi          = {10.5281/zenodo.7878101},
  url          = {https://doi.org/10.5281/zenodo.7878101}
}

模型卡片联系方式

PyThaiNLP

作者: