英文

xlm-clm-enfr-1024

目录

  • 模型详情
  • 应用
  • 偏见、风险和限制
  • 训练
  • 评估
  • 环境影响
  • 技术规格
  • 引用
  • 模型卡片作者
  • 如何开始使用模型
  • 模型详情

    XLM模型是由Guillaume Lample、Alexis Conneau于 Cross-lingual Language Model Pretraining 提出的。xlm-clm-enfr-1024是使用因果语言建模(CLM)目标(下一个token的预测)进行预训练的英法翻译的Transformer模型。

    模型描述

    应用

    直接应用

    此模型是用于语言建模的模型。可以用于因果语言建模(下一个token的预测)。

    下游应用

    若要了解有关此任务和潜在下游应用的更多信息,请参阅 Hugging Face Multilingual Models for Inference 文档。

    不适用范围

    不应使用该模型有意创建对人们具有敌对或疏远效果的环境。

    偏见、风险和限制

    已经进行了大量关于语言模型的偏见和公平性问题的研究(参见,例如, Sheng et al. (2021) Bender et al. (2021) )。

    建议

    用户(包括直接用户和下游用户)应意识到该模型的风险、偏见和限制。

    训练

    有关训练数据和训练过程的详细信息,请参阅 associated paper

    评估

    测试数据、因素和指标

    有关测试数据、因素和指标的详细信息,请参阅 associated paper

    结果

    关于xlm-clm-enfr-1024的结果,请参阅 associated paper 的表2。

    环境影响

    可以使用 Lacoste et al. (2019) 中介绍的 Machine Learning Impact calculator 来估算碳排放量。

    • 硬件类型:需要更多信息
    • 使用小时数:需要更多信息
    • 云提供商:需要更多信息
    • 计算区域:需要更多信息
    • 排放的碳量:需要更多信息

    技术规格

    模型开发者写道:

    我们使用PyTorch(Paszke等,2017)实现所有模型,并在64个Volta GPU上进行语言建模任务的训练,以及在8个GPU上进行MT任务的训练。我们使用float16操作来加快训练速度并减少模型的内存使用量。

    有关更多详细信息,请参阅 associated paper

    引用

    BibTeX:

    @article{lample2019cross,
      title={Cross-lingual language model pretraining},
      author={Lample, Guillaume and Conneau, Alexis},
      journal={arXiv preprint arXiv:1901.07291},
      year={2019}
    }
    

    APA:

    • Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.

    模型卡片作者

    Hugging Face团队编写了此模型卡片。

    如何开始使用模型

    使用以下代码开始使用模型。

    点击以展开
    import torch
    from transformers import XLMTokenizer, XLMWithLMHeadModel
    
    tokenizer = XLMTokenizer.from_pretrained("xlm-clm-enfr-1024")
    model = XLMWithLMHeadModel.from_pretrained("xlm-clm-enfr-1024")
    
    input_ids = torch.tensor([tokenizer.encode("Wikipedia was used to")])  # batch size of 1
    
    language_id = tokenizer.lang2id["en"]  # 0
    langs = torch.tensor([language_id] * input_ids.shape[1])  # torch.tensor([0, 0, 0, ..., 0])
    
    # We reshape it to be of size (batch_size, sequence_length)
    langs = langs.view(1, -1)  # is now of shape [1, sequence_length] (we have a batch size of 1)
    
    outputs = model(input_ids, langs=langs)