揭秘Llama 3:四大关键要素彰显其对Meta与AI领域的重大意义

2024年04月29日 由 neo 发表 133 0

Meta期待已久的Llama3模型终于亮相,带来了一系列令人瞩目的技术革新。尽管它是另一个相对较小的模型,包括8B和80B参数的变体,但Llama3仍专注于高质量的训练数据和有效的保护措施。相比之前的Llama2模型,Meta使用的训练数据集扩大了七倍,对Llama3进行了高达15万亿个标记的训练。为在相对较少的参数下最大限度地提高数据质量,Meta还独立开发了一系列数据管道、过滤器和基于启发式的方法。


QQ截图20240429140359

对于Meta的模型系列来说,Llama3无疑是一个重大进步。随着公司不断完善其流程并发布具有更大参数数量和训练数据集的新版本,它的性能将不断得到优化。未来,一个完全多模态的版本已在规划中,同时还有400B参数版本和多语言支持等待发布。但人们可能会好奇,Llama3与OpenAI的GPT模型或Google的Gemini有何不同?下面,我们将探讨Llama3之所以重要的几个关键原因。

一、Llama3对开发人员完全免费开放

Meta采取了与OpenAI截然不同的策略。Meta在AI领域的一个独特举措,就是公开其模型的可用性和可移植性。与Mistral等公司类似,Meta为任何人提供了免费使用其模型的机会,包括商业或研究用途的无限制许可。该公司一直积极发布其模型,旨在推动AI的发展,并承诺早期支持AWS、Databricks等云平台,以及为本地微调模型的开发人员提供必要支持。

Meta显然希望围绕其AI模型构建一个生态系统和工具链,并积极拥抱那些为各种应用程序构建、训练和调整免费可用模型的大型在线社区。这与OpenAI和Google等公司更“产品驱动”的方法形成鲜明对比。这种策略可能是Meta试图避免传统厂商在技术领域的“诅咒”,即早期市场投入大量资源开发产品,但随后被其他创新者迅速超越。Llama3有望成为激发更多AI创新和投资的催化剂,同时也为Meta分担了一部分在理解和推动模型能力方面的工作量。

二、Meta开始认真对待AI保护措施

Llama Guard 2和Cybersec Eval 2旨在全方位保护模型和用户安全

438922663_1135166371264105_805978695964769385_n

Llama3不仅带来了技术革新,更推出了一种“系统级”的AI责任方法,这在AI领域的其他大型参与者中显然是一个不愿多谈的话题。其中部分原因,源于Meta对其模型的公开可用策略。这种策略可能在一定程度上削弱了OpenAI和Google的Gemini模型所依赖的某些保护措施。然而,Meta却渴望强调其在训练和调整阶段所采取的保护措施,其中最为引人注目的便是新引入的Llama Guard 2。

Llama Guard 2是一个独立的LLM模型(颇具讽刺意味的是,它正是在Llama3上进行训练的),拥有8B参数。其主要功能在于作为Llama3模型的输入-输出保护器,将传入的任务进行筛选和过滤,确保模型在处理各类请求时能够保持高度安全性和稳定性。

这一创新举措不仅彰显了Meta在AI保护方面的决心和实力,也为整个行业树立了一个新的标杆。通过采取更为严格的保护措施,Meta旨在为用户提供更加安全、可靠的AI服务,同时确保模型本身不会受到恶意攻击或滥用。


三、Llama3注重质量而非规模

Meta的模型具备出色的兼容性,轻松适配您的个人电脑

QQ截图20240429141545

与市场上的竞争对手相比,Llama3在8B参数模型和70B参数模型上的基准分数表现卓越。Meta再次展现了其与众不同的策略,选择在较小的数据集和参数数量上进行训练,但始终将高质量的数据置于首位。这种方法的优势显而易见。通过这一方式,模型的计算成本大幅降低,训练过程更为迅速。尽管训练Llama3仍需借助NVIDIA提供的两个定制的24,000个GPU集群,但Meta已逐渐摒弃了大型LLM所追求的大规模参数数量(例如GPT4的参数超过一万亿),转而专注于构建一个高质量的离线数据集。

这种策略不仅带来了训练效率的提升,还带来了其他诸多好处。Llama3在本地机器上的运行变得更为便捷(当然,即使是8B参数模型,也需要相当的计算资源)。这一特点极大地便利了开发人员、初创公司和潜在的AI颠覆者,使他们能够轻松使用最新模型,无需投入大量前期资本。可以说,Llama3的推出为整个AI行业带来了新的可能性,为创新者们提供了更多实现梦想的机会。

四、这只是Llama3的起点

QQ截图20240429141845

Meta计划在未来推出更为强大的400B参数版本,目前Llama 3 400B参数模型正处于紧张的训练阶段。Llama3的一大亮点在于,Meta对其未来的改进计划进行了透明的披露,包括多模态支持、多语言支持以及即将面世的400B参数版本。虽然更多的参数意味着模型将更为庞大,但无疑会增强其处理能力,受到广泛欢迎。

多语言支持无疑是一个挑战,因为目前Llama3仅针对英语进行了训练。我们猜测,Meta可能在幕后正努力完善其数据处理流程,并提升在各种语言中执行RLHF(与人类反馈的强化学习)和微调工作的能力。我们期待看到Llama3的多语言版本,并希望这预示着Meta未来更多的模型版本将具备多语言支持功能。

此外,多模态支持(即图像和视频的生成与摄入)也在Meta的规划之中。尽管他们已在Llama3旁边发布了一个独立的图像生成器,但出于对当前多模态模型存在缺陷的谨慎考虑,他们决定暂不加入真正的多模态支持。然而,我们对未来充满期待,特别是鉴于Meta已经展现出对模型安全性的坚定承诺。我们有理由相信,随着技术的不断进步,Meta将为我们带来更多惊喜和突破。

Llama3展望未来

在AI领域的众多公司中,Meta显得与众不同。尽管Meta在推出Llama3的同时,也发布了另一个AI助手,但它似乎并不急于迎合市场潮流。尽管在一定程度上,Meta仍在追赶谷歌和OpenAI的步伐,但其模型却在不断壮大,并专注于所有关键领域,包括为开发人员提供便捷支持、实现可扩展性、获得平台认可以及确保通用AI的安全性。这些问题往往被那些更热衷于将产品推向市场的公司所忽视。

至于Meta是否能在这些方面取得成功,目前尚难断言。无论是出于懒惰还是耐心,Meta的方法都显得别具一格。然而,无论结果如何,我们都对Llama3的未来充满期待。我们有理由相信,随着技术的不断进步和Meta的持续努力,Llama3将为我们带来更多惊喜和突破。

文章来源:https://www.xda-developers.com/four-reasons-why-llama-3-is-a-big-deal/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消