数据集:
Emanuel/UD_Portuguese-Bosque
语言:
此数据集已通过AutoNLP自动处理用于pos-tag-bosque项目。
数据集的BCP-47代码为pt。
数据集的示例如下所示:
[
{
"tags": [
5,
7,
0
],
"tokens": [
"Um",
"revivalismo",
"refrescante"
]
},
{
"tags": [
5,
11,
11,
11,
3,
5,
7,
1,
5,
7,
0,
12
],
"tokens": [
"O",
"7",
"e",
"Meio",
"\u00e9",
"um",
"ex-libris",
"de",
"a",
"noite",
"algarvia",
"."
]
}
]
数据集具有以下字段(也称为"特征"):
{
"tags": "Sequence(feature=ClassLabel(num_classes=17, names=['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'PUNCT', 'SCONJ', 'SYM', 'VERB', 'X'], names_file=None, id=None), length=-1, id=None)",
"tokens": "Sequence(feature=Value(dtype='string', id=None), length=-1, id=None)"
}
此数据集被拆分为训练集和验证集。拆分大小如下:
| Split name | Num samples |
|---|---|
| train | 8328 |
| valid | 476 |