roberta-large-sst2
该模型是在GLUE数据集上对
roberta-large
进行微调的版本。在评估集上实现以下结果:
模型描述
需要更多信息
预期用途和限制
需要更多信息
训练和评估数据
需要更多信息
训练程序
训练超参数
训练时使用了以下超参数:
- 学习率:3e-05
- 训练批大小:32
- 评估批大小:32
- 种子:42
- 分布式类型:sagemaker_data_parallel
- 设备数量:8
- 总训练批大小:256
- 总评估批大小:256
- 优化器:Adam,betas=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型:线性
- 学习率调度器预热步数:500
- 训练轮数:4
- 混合精度训练:Native AMP
训练结果
|
Training Loss
|
Epoch
|
Step
|
Validation Loss
|
Accuracy
|
|
0.3688
|
1.0
|
264
|
0.1444
|
0.9564
|
|
0.1529
|
2.0
|
528
|
0.1502
|
0.9518
|
|
0.107
|
3.0
|
792
|
0.1388
|
0.9530
|
|
0.0666
|
4.0
|
1056
|
0.1400
|
0.9644
|
框架版本
- Transformers 4.17.0
- PyTorch 1.10.2+cu113
- Datasets 1.18.4
- Tokenizers 0.11.6