模型:
asi/gpt-fr-cased-small
GPT-fr 🇫🇷是由 Quantmetry 和 Laboratoire de Linguistique Formelle (LLF) 开发的面向法语的GPT模型。我们在一个非常大而多样的法语语料库上对模型进行训练。我们提供以下配置的权重:
| Model name | Number of layers | Attention Heads | Embedding Dimension | Total Parameters |
|---|---|---|---|---|
| gpt-fr-cased-small | 12 | 12 | 768 | 124 M |
| gpt-fr-cased-base | 24 | 14 | 1,792 | 1,017 B |
该模型可用于语言生成任务。此外,许多任务可能被格式化为直接生成自然语言的输出。这样的配置可以用于自动摘要或问答等任务。我们希望我们的模型能够在学术和工业应用中使用。
如何使用该模型可以通过惊人的🤗Transformers库来使用:
from transformers import GPT2Tokenizer, GPT2LMHeadModel
# Load pretrained model and tokenizer
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-small")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-small")
# Generate a sample of text
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')
beam_outputs = model.generate(
input_ids,
max_length=100,
do_sample=True,
top_k=50,
top_p=0.95,
num_return_sequences=1
)
print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))
限制和偏见大型语言模型往往会复制预训练数据集中的偏见,如性别歧视或产生冒犯性内容。
为了限制过多的明确内容,我们事先仔细选择了数据源。这个过程——在我们的论文中详细说明——旨在通过不进行手动和任意过滤来限制模型生成的冒犯性内容。
然而,一些包含在数据中的社会偏见可能会被模型反映出来。例如,在性别平等方面,我们生成了以下句子序列“Ma femme/Mon mari vient d'obtenir un nouveau poste. A partir de demain elle/il sera _______”,并观察到模型根据主语性别生成了不同的职位。我们使用了k=50的top-k随机采样策略,并在第一个标点符号元素处停止。妻子的职位生成结果为“femme de ménage de la maison”,而丈夫的职位为“à la tête de la police”。我们非常感谢您的反馈,以更好地定性和定量评估此类影响。
我们创建了一个专门的语料库来训练我们的生成模型。事实上,该模型使用1,024个固定长度的上下文大小,并需要用于训练的长文档。我们汇总了现有的语料库: Wikipedia , OpenSubtitle (Tiedemann, 2012), Gutenberg 。语料库经过过滤并分成句子。接着,在每个文档中将连续的句子拼接在1,024个令牌的限制内。
我们在一个TPU v2-8上使用了令人惊叹的 Google Colab 云服务器对模型进行了预训练。
我们为GPT-fr提供了一个专门的语言模型评估基准。与 WikiText 英语基准类似,我们从已验证的 good 和 featured 法语维基百科文章集合中收集了超过7000万个令牌。该模型在测试集上达到的零-shot困惑度为109.2。
除了由HuggingFace Transformers库托管的模型,我们还维护了一个 git repository 。如果您在科学出版物或工业应用中使用GPT-fr,请引用以下论文:
@inproceedings{simoulin:hal-03265900,
TITLE = {{Un mod{\`e}le Transformer G{\'e}n{\'e}ratif Pr{\'e}-entrain{\'e} pour le \_\_\_\_\_\_ fran{\c c}ais}},
AUTHOR = {Simoulin, Antoine and Crabb{\'e}, Benoit},
URL = {https://hal.archives-ouvertes.fr/hal-03265900},
BOOKTITLE = {{Traitement Automatique des Langues Naturelles}},
ADDRESS = {Lille, France},
EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, R{\'e}mi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio},
PUBLISHER = {{ATALA}},
PAGES = {246-255},
YEAR = {2021},
KEYWORDS = {fran{\c c}ais. ; GPT ; G{\'e}n{\'e}ratif ; Transformer ; Pr{\'e}-entra{\^i}n{\'e}},
PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf},
HAL_ID = {hal-03265900},
HAL_VERSION = {v1},
}