模型:

allenai/longformer-base-4096

英文

longformer-base-4096

Longformer 是一个用于长文档的转换器模型。

longformer-base-4096是从RoBERTa检查点开始的类似BERT的模型,并在长文档上进行了预训练的MLM。它支持长度最多为4,096的序列。

Longformer使用滑动窗口(局部)注意力和全局注意力的组合。全局注意力根据任务进行用户配置,以允许模型学习任务特定的表示。有关如何设置全局关注的更多细节,请参阅modeling_longformer.py中的示例和论文。

引用

如果您在研究中使用Longformer,请引用 Longformer: The Long-Document Transformer

@article{Beltagy2020Longformer,
  title={Longformer: The Long-Document Transformer},
  author={Iz Beltagy and Matthew E. Peters and Arman Cohan},
  journal={arXiv:2004.05150},
  year={2020},
}

Longformer是由 the Allen Institute for Artificial Intelligence (AI2) 开发的开源项目。AI2是一个非营利性研究所,致力于通过具有高影响力的AI研究和工程来为人类做出贡献。