360公司开源70亿参数大模型360智脑7B,支持50万字长文本输入

2024年04月16日 由 neo 发表 60 0

近日,科技巨头360公司在全球代码托管平台GitHub上宣布开源了其最新研发的大模型——360智脑7B,这一举措标志着360在人工智能领域的又一次重大突破。据悉,360智脑7B拥有高达70亿参数,以强大的计算能力和广泛的语料库为基础,为自然语言处理领域带来了全新的可能。

52b7b1bb-725f-4649-a23c-fa5748b6fe7e

该大模型在训练过程中采用了3.4万亿Tokens的语料库,涵盖了中文、英文及代码等多种语言,以满足不同场景下的应用需求。值得一提的是,360智脑7B开放了4K、32K、360K三种不同文本长度的版本,其中360K版本以约50万字的文本长度,成为了当前国产开源模型中文本长度最长的模型之一。

为了验证模型的实际性能,360公司在多个主流评测数据集上进行了全面的测试。这些评测数据集包括C-Eval、AGIEval、MMLU、CMMLU、HellaSwag、MATH、GSM8K、HumanEval、MBPP、BBH、LAMBADA等,涵盖了自然语言理解、知识推理、数学计算、代码生成等多个方面。经过严格评测,360智脑7B在四个评测数据集上取得了第一名的优异成绩,并在整体平均分上位列第三,展现了其强大的综合能力。

d113618f-d06c-4208-b356-83a32b721a81

此外,在针对大语言模型长文本理解能力的LongBench测试中,360智脑7B同样表现出色。特别是在与中文长文本应用密切相关的任务中,如中文单文档问答、多文档问答、摘要以及Few-shot等,360Zhinao-7B-Chat-32K模型以平均分第一的成绩脱颖而出。

69ec13fb-5248-42c2-8409-528f1e8a4ca0

不仅如此,360公司还进一步在英文大海捞针测试(NeedleInAHaystack)中验证了模型的长文本处理能力。测试中,360Zhinao-7B-Chat-360K模型达到了98%以上的准确率,展现出了卓越的文本理解和处理能力。同时,360公司还仿照SuperCLUE-200K测评基准构造了中文大海捞针测试,并同样取得了98%以上的准确率,证明了其模型在处理中文长文本方面的优势。

值得一提的是,除了模型权重外,360公司还将模型的微调训练代码、推理代码等全套工具集一并开源,为开发者提供了极大的便利。这意味着大模型相关开发者可以轻松地获取和使用这些工具集,实现“开箱即用”的效果,进一步推动了大模型技术的发展和应用。

360公司创始人周鸿祎表示,大模型行业的发展需要不断突破和创新。他强调,前段时间行业内关于文本长度的竞争只是表面现象,而真正的核心在于模型的性能和实际应用效果。他认为,将360智脑7B的文本长度定为360K主要是为了讨个口彩,并强调开源的力量是推动技术发展的关键。他自称为“开源的信徒”,坚信通过开源可以汇聚更多的智慧和力量,共同推动人工智能技术的进步。

此次360公司开源360智脑7B大模型的举措,无疑为中文大模型领域注入了新的活力。随着更多企业和开发者加入到这一领域中,相信未来会有更多创新和突破性的成果涌现,推动人工智能技术在各个领域的广泛应用和发展。

文章来源:https://www.ithome.com/0/761/531.htm
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消