带有80亿参数的生成式预训练变压器模型,用于芬兰语。 
  TurkuNLP Finnish GPT-3模型是一组基于BLOOM架构的预训练单语GPT风格语言模型。请注意,这些模型是纯粹的语言模型,意味着它们不适用于对话或回答问题。
  这些模型旨在用作基础模型,可以通过指令微调,用作现代聊天模型。 
  所有模型都是用300B个标记进行训练的。
  参数
  数据集
  我们使用了多种芬兰资源的组合。
  - 芬兰互联网解析库mC4多语言巨大数据集,清理后的Common Crawl 
  - Common Crawl芬兰语
  - 芬兰维基百科
  - Lönnrot项目Lönnrot
  - 国家图书馆“epub”收藏
  - 国家图书馆“lehdet”收藏
  - Suomi24 Suomi 24语料库2001-2020
  - Reddit r/Suomi提交和评论
  - STT芬兰新闻社档案1992-2018
  - Yle芬兰新闻档案2011-2018
  - Yle芬兰新闻档案2019-2020
  - Yle新闻档案易读芬兰语2011-2018
  - Yle新闻档案易读芬兰语2019-2020
  - ROOTS TODO
  
  采样比例
  更多文档和论文即将问世。