LLM系统即将拥有无限上下文长度

2024年04月23日 由 samoyed 发表 51 0

LLM会忘记前文信息,这是众所周知的。造成这种情况的主要原因是模型上下文长度的有限性。甚至有人说,这是实现通用人工智能(AGI)的最大瓶颈。


The-Future-LLM-Systems-Will-Have-Infinite-Context-Length


很快,关于哪个模型拥有最大上下文长度的争论似乎将变得无关紧要。微软、谷歌和Meta都在朝着这个方向迈进——使上下文长度无限。


Transformer的终结?


尽管目前所有LLM都运行在Transformer上,但它可能很快成为过去式。例如,Meta推出了MEGALODON,这是一种专为高效序列建模而设计的神经网络架构,具有无限上下文长度。


MEGALODON旨在克服Transformer架构的局限性,如二次计算复杂性和长度泛化的有限归纳偏置。该模型在70亿参数和2万亿训练令牌的规模上表现出卓越的效率,在训练损失方面优于其他模型,如Llama 2。


它引入了关键创新,如复杂指数移动平均(CEMA)组件和时间步长归一化层,这些改进提高了长上下文预训练和数据效率。这些改进使MEGALODON在指令微调、图像分类和自回归语言建模等各种任务中表现出色。


最有可能的是,Meta的Llama 3将基于MEGALODON架构,使其具有无限上下文长度。


同样,谷歌的研究人员也提出了一种名为“Infini-Attention”的方法,该方法将压缩内存融入普通的注意力机制中。题为《不遗漏任何上下文》的论文指出,Infini-Attention将压缩内存融入普通的注意力机制中,并在单个Transformer块中结合了掩码局部注意力和长期线性注意力机制。


这种方法在单个Transformer块中结合了掩码局部注意力和长期线性注意力机制,使现有的LLM能够用有限的内存和计算资源处理无限长的上下文。


这种方法自然地扩展到处理长达百万的输入序列,并在长上下文语言建模基准和书籍摘要任务上优于基线。经过在最多5K序列长度的通行密钥实例上微调后,1B模型成功解决了1M长度的问题。


不再遗忘


沿着类似的思路,谷歌的另一组研究人员引入了反馈注意力内存(FAM)。这是一种新颖的Transformer架构,它利用反馈循环使网络能够关注其自身的潜在表示,从而在Transformer内部催生工作记忆,并使其能够处理无限长的序列。


FAM的引入通过添加反馈激活提供了一种新方法,这些反馈激活将上下文表示反馈回每个滑动窗口注意力块。这实现了集成注意力、块级更新、信息压缩和全局上下文存储。


此外,来自北京人工智能研究院的研究人员还提出了Activation Beacon,这是一种通过将原始激活压缩成紧凑形式来扩展LLM上下文长度的方法。这种插件组件使LLM能够在感知长上下文的同时,保持其在较短上下文中的性能。


Activation Beacon采用滑动窗口的方法进行流处理,提高了训练和推理的效率。通过使用短序列数据进行训练和改变压缩率,Activation Beacon能够以较低的训练成本支持不同的上下文长度。实验验证了Activation Beacon是一种有效、高效且低成本的扩展LLM上下文长度的解决方案。


我们真的需要token吗?


今年2月,微软研究院发表了一篇题为《LongRoPE:将LLM上下文窗口扩展到超过200万个token》的论文。该技术将LLM的上下文长度显著增加到前所未有的2048ktoken,同时保持了它们在较短上下文窗口内的原始性能。


除此之外,微软的另一个研究团队也挑战了LLM预训练的传统方法,该方法在训练语料库中的所有token上统一应用下一个token预测损失。相反,他们提出了一种新的语言模型RHO-1,该模型利用选择性语言建模(SLM)。


SLM方法直接通过关注token级别并在预训练期间消除不需要的token的损失来解决这个问题。


SLM首先在高质量的语料库上训练一个参考语言模型,以根据所需的分布为token建立实用指标。在参考模型和训练模型之间具有高额外损失的token被选中进行训练,使语言模型专注于那些最有利于下游应用的token。


不再“迷失在中间”?


长期以来,人们一直在讨论更长的上下文长度窗口模型如何在中间部分迷失的问题。即使有了长上下文的LLM,为了准确性,人们还是建议选择较短的上下文长度输入。值得注意的是,输入开始和结束处的事实比中间部分的事实保留得更好。


来自NVIDIA AI的Jim Fan解释了当涉及到改进LLM时,声称有百万或十亿个token是没有帮助的。“真正重要的是模型实际上如何使用上下文。看似狂野的声明很容易做出,但解决真正的问题却更难,”他说。


同时,为了衡量这些更长上下文长度的效率,NVIDIA的研究人员开发了RULER,这是一种合成基准,旨在评估跨多个任务类别的长上下文语言模型,包括检索、多跳追踪、聚合和问答。


所有这些都意味着未来的LLM系统将具有无限的上下文长度。

文章来源:https://analyticsindiamag.com/llm-systems-will-soon-have-infinite-context-length/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消