语法合成:flan-t5-xl 
 
  
   此模型是在扩展版 JFLEG 数据集上对 
   google/flan-t5-xl
   进行微调的版本。
  
  模型描述 
  目的是创建一个文本到文本的语言模型,可以成功地对可能存在多个错误的文本进行“一次性语法校正”,但不能对语法正确的文本/信息进行语义变更。
 比较一些较严重的错误示例,与 
   other grammar correction models
   进行对比,以了解其中的区别 :)
  限制 
  -  数据集:cc-by-nc-sa-4.0 
  - 模型:apache-2.0
  - 目前仍在进行,尚未完成!虽然在许多情况下对于“一次性语法校正”可能很有用,但是请检查输出以确保正确性,好吗?
  
  训练过程 
  训练超参数 
 会话一 
 -  待办事项:添加此内容。这是在较高 LR 下的单个 epoch
  
 会话二 
 训练期间使用了以下超参数:
  -  learning_rate: 4e-05 
  -  train_batch_size: 4 
  -  eval_batch_size: 1 
  -  seed: 42 
  -  distributed_type: multi-GPU 
  -  gradient_accumulation_steps: 16 
  -  total_train_batch_size: 64 
  -  optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08 
  -  lr_scheduler_type: cosine 
  -  lr_scheduler_warmup_ratio: 0.02 
  -  num_epochs: 2.0