智谱AI研发高质量文生视频模型，对标OpenAI Sora，预计年内发布

2024年05月06日由 neo 发表 1872 0

在AI大模型领域，国内独角兽公司智谱AI正酝酿着一场技术革新。据报道，该公司正致力于研发一款与OpenAI的Sora相媲美的文生视频模型，预计最快将在今年内与公众见面。

2b7ff187c902d488d1ccf2f8de1690e2

“文生视频技术正迎来快速发展的黄金时期，今年有望成为其大模型爆发的关键年份。”智谱AI内部人士向媒体透露。他们发现，国内市场对此技术的需求非常广泛，涵盖电影制作、短视频、游戏开发等多个领域。智谱AI将借助更高质量的数据和更强大的模型参数，力求推出高质量的产品以满足这些需求。

智谱AI成立于2019年，由清华大学计算机系的技术成果转化而来，其背后有着深厚的学术背景。公司CEO张鹏、总裁王绍兰和董事长刘德兵都是清华大学计算机系出身，并曾在知识工程（KEG）实验室担任核心成员。

作为国内最早涉足大模型领域的公司之一，智谱AI已经推出了多款备受瞩目的产品。2023年3月，他们推出了ChatGLM系列千亿开源基座对话模型，并在过去一年内完成了四次重要升级，最终在2024年1月推出了GLM4系列。

基于这些强大的基座大模型，智谱AI还构建了AIGC模型产品矩阵，包括AI提效助手智谱清言、高效率代码模型CodeGeeX、多模态理解模型CogVLM和文生图模型CogView等。这些产品在不同领域均展现出了出色的性能和应用价值。

张鹏在今年3月表示，智谱AI已经拥有超过2000家生态合作伙伴和超过1000个大模型规模化应用。他们还与200多家企业进行了深度共创，覆盖了传媒、咨询、消费、金融、新能源、互联网和智能办公等多个领域。此外，智谱AI的ChatGLM-6B模型在全球范围内的累计下载量已经超过了1300万，GitHub Star星数更是达到了5万，超过了Meta Llama两个版本的总和。这使得智谱AI成为了全球最受欢迎的开源机构之一，并力压OpenAI、谷歌和微软等巨头。

对于即将发布的文生视频模型，智谱AI内部人士表示，其性能已经接近海外顶级模型。他们透露，最新基座大模型GLM-4在整体性能上相比上一代有了大幅提升，已经逼近GPT-4的水平。在某些中文对齐的任务上，GLM-4甚至能够略微超过GPT-4。根据最新的海外伯克利Arena Hard基准测试，GLM的排名仅次于GPT-4 Turbo和Claude 3 Opus，在国内外模型中均处于领先地位。

在研发文生视频模型的过程中，智谱AI面临着技术路线选择、高质量视频素材语料等挑战。他们需要在技术路线上优化Transformer与Diffusion的结合架构，解决连续帧之间的抖动问题，实现高分辨率和高一致性的长序列生成，并获取更多更细节的真实场景数据。同时，他们还需要注重数据版权和使用问题，确保模型的合法性和可持续性。

值得注意的是，智谱AI此前已经投资了生数科技并与清华大学联合发布了中国首个长时长、高一致性、高动态性视频大模型Vidu。这款模型被誉为“国内首个Sora级视频模型”和“中国首个纯自研视频大模型”。如果智谱AI也发布类似的文生视频模型的话，两者将形成一定的竞争关系。然而，这也将推动双方在技术上不断创新和突破，共同推动中国AI产业的发展。

截至目前，智谱AI已经以产业型投资方式投资、入股了超过13家AI产业链的初创公司。张鹏曾表示，智谱AI正在经历一个从量变到质变的过程，特别是在大模型所谓的涌现方面。他们的目标是瞄准AGI（通用人工智能），实现超过人类水平的超级认知智能、自我解释、自我评测和自我监督，并确保模型的安全和可控性。

文章来源：https://www.tmtpost.com/7072424.html

标签：

OpenAI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 AI21 Labs发布企业专属Jamba-Instruct模型

下一篇阿里云发布通义千问2.5：中文大模型性能领跑，全面超越GPT-4 Turbo

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术