bigbird pegasus 在 booksum 数据集上的使用

这是训练时间最长的 "最新" 版本的模型，目前已经进行了70k步的训练

目标：一个能够准确总结源内容的摘要模型，更重要的是产生易于阅读和理解的摘要（不像arXiv那样难读）
- 这个模型尝试通过使用 booksum 数据集来提供解释性摘要来帮助实现这个目标
- 解释性摘要 - 既总结信息，也解释为什么该总结的信息很重要
这个模型总共训练了七个时期（约70,000步），现在接近完成
- 根据任何结果和反馈意见，将继续改进（现在训练时间很长，所以进展会慢一些）
起始检查点为 google/bigbird-pegasus-large-bigpatent

使用示例

包括批量摘要演示的扩展示例在 here 中

创建摘要器对象：

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
from transformers import pipeline

model = AutoModelForSeq2SeqLM.from_pretrained(
    "pszemraj/bigbird-pegasus-large-K-booksum",
    low_cpu_mem_usage=True,
)

tokenizer = AutoTokenizer.from_pretrained(
    "pszemraj/bigbird-pegasus-large-K-booksum",
)


summarizer = pipeline(
    "summarization",
    model=model,
    tokenizer=tokenizer,
)

定义要进行摘要的文本，并将其通过管道传递。完成！

wall_of_text = "your text to be summarized goes here."

result = summarizer(
    wall_of_text,
    min_length=16,
    max_length=256,
    no_repeat_ngram_size=3,
    clean_up_tokenization_spaces=True,
)

print(result[0]["summary_text"])

备用检查点

如果遇到运行时/内存问题，请尝试在40,000步附近使用 this earlier checkpoint ，它在解释性摘要任务上几乎与原始模型一样好，但速度更快。
查看在 booksum 上使用不同架构微调的类似摘要模型： long-t5 base 和 LED-Large

作者:

Peter Szemraj

数据集大小:

4.8 GB