英文

T5 Large模型卡片

目录

  • 模型细节
  • 用途
  • 偏见、风险和限制
  • 训练细节
  • 评估
  • 环境影响
  • 引用
  • 模型卡片作者
  • 如何开始使用该模型
  • 模型细节

    模型描述

    T5的开发者提出了一种将所有NLP任务重新构建为统一的文本到文本格式的方法,其中输入和输出始终为文本字符串,而不像BERT风格的模型只能输出类标签或输入的一部分。我们的文本到文本框架使我们能够在任何NLP任务上使用相同的模型、损失函数和超参数。

    T5-Large是具有7.7亿参数的检查点。

    用途

    直接使用和下游应用

    开发者在 blog post 中写道:

    我们的文本到文本框架使我们能够在任何NLP任务上使用相同的模型、损失函数和超参数,包括机器翻译、文档摘要、问答和分类任务(如情感分析)。我们甚至可以通过训练T5预测数字的字符串表示而不是数字本身,将T5应用于回归任务。

    更多细节参见 blog post research paper

    不适用的用途

    需要更多信息。

    偏见、风险和限制

    需要更多信息。

    建议

    需要更多信息。

    训练细节

    训练数据

    该模型是在 Colossal Clean Crawled Corpus (C4) 上进行预训练的,这个数据集是在与T5相同的 research paper 背景下开发和发布的。

    该模型在一个多任务混合的无监督(1.)和监督任务(2.)上进行了预训练。具体来说,以下数据集被用于(1.)和(2.):

  • 用于无监督去噪目标的数据集:
  • 用于监督文本到文本语言建模目标的数据集
  • 训练过程

    在他们的 abstract 中,模型开发者写道:

    本文通过引入一种统一框架,将每个语言问题转换为文本到文本格式,探索了NLP的迁移学习技术的局限性。我们对几十个语言理解任务中的预训练目标、架构、无标签数据集、迁移方法和其他因素进行了系统研究。

    T5框架是开发者研究的方法的结合,包括一套训练过程。更多细节参见 research paper

    评估

    测试数据、因素和度量

    开发者在24个任务上对模型进行了评估,详见 research paper 以获取完整详情。

    结果

    T5-Large的完整结果,请参见 research paper 中的表14。

    环境影响

    可以使用 Machine Learning Impact calculator Lacoste et al. (2019) 中提出的方法估计碳排放量。

    • 硬件类型:Google Cloud TPU Pods
    • 使用时间:更多信息需要
    • 云服务提供商:GCP
    • 计算区域:更多信息需要
    • 排放的碳量:更多信息需要

    引用

    BibTeX:

    @article{2020t5,
      author  = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
      title   = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
      journal = {Journal of Machine Learning Research},
      year    = {2020},
      volume  = {21},
      number  = {140},
      pages   = {1-67},
      url     = {http://jmlr.org/papers/v21/20-074.html}
    }
    

    APA:

    • Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.

    模型卡片作者

    本模型卡片由Hugging Face团队撰写。

    如何开始使用该模型

    使用以下代码可以开始使用该模型。

    Click to expand
    from transformers import T5Tokenizer, T5Model
    
    tokenizer = T5Tokenizer.from_pretrained("t5-large")
    model = T5Model.from_pretrained("t5-large")
    
    input_ids = tokenizer(
        "Studies have been shown that owning a dog is good for you", return_tensors="pt"
    ).input_ids  # Batch size 1
    decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1
    
    # forward pass
    outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
    last_hidden_states = outputs.last_hidden_state
    

    更多示例,请参见 Hugging Face T5 文档和 Colab Notebook ,这些示例由模型开发者创建。