苹果发布CoreNet和OpenELM模型助力AI开放研究

2024年04月25日由 daydream 发表 543 0

苹果公司推出了全新的深度神经网络训练库CoreNet以及先进的开放语言模型系列OpenELM。这些模型现已在Hugging Face hub上公开提供，并且附带了一套完整的框架，用于在公开数据集上进行训练和评估。

微信截图_20240425100018

CoreNet，可在GitHub上找到，是一款功能强大的工具包，支持多种任务，包括目标检测和语义分割。OpenELM模型，是基于CoreNet构建的，通过优化转换器模型中的参数分配，实现了更高的准确性。目前，苹果已经发布了四个不同参数规模的预训练和指令调整模型，分别是2.7亿、4.5亿、11亿和30亿参数版本。

OpenELM的独特之处在于其独特的分层缩放策略。这种策略在转换器层中，对靠近输入的注意力和前馈模块的潜在维度进行了缩小，随着它们逐渐接近输出而逐渐扩大。这种设计使参数预算的利用更为高效，从而提高了模型的准确性，与现有模型相比具有显著优势。

值得一提的是，OpenELM的10亿参数版本在仅需要一半预训练令牌的情况下，性能比类似的OLMo模型高出2.36%，但相比微软最近发布的Phi-3小型语言模型，仍有一定差距。

微信截图_20240425100413

苹果发布CoreNet和OpenELM，无疑是对开放研究社区的一大贡献，也是这家科技巨头在这一领域的首次尝试。公司不仅公开了模型权重和推理代码，还分享了训练日志、检查点和预训练配置，以便让更多的人能够使用和改进这些模型。此外，苹果还提供了将模型转换为MLX库的代码，使得这些模型能够在苹果设备上实现高效推理和微调。

苹果决定将OpenELM开源，可能受到了谷歌、微软和Meta等同行的影响。这些公司都积极为AI社区贡献出先进的开放模型，受到了广泛的好评。苹果的这一举措，既反映了行业对创新和开放性的需求，也体现了苹果在保持竞争力和行业相关性方面的努力。

另外，苹果对小型参数模型（如OpenELM）的重视，也与其在设备上而非云端运行AI的战略相吻合。这种方式既有助于保护用户隐私，又能实现高效的设备端推理，对苹果的产品和服务生态系统具有重要意义。

文章来源：https://www.maginative.com/article/apple-enters-the-open-ai-arena-with-corenet-and-openelm/

标签：

苹果 CoreNet OpenELM

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇华为智能汽车解决方案发布会揭幕：新一代鸿蒙座舱引领智慧出行

下一篇索尼推出AI“自动播放”功能来解决游戏中枯燥任务

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术