Grok宣布文本转视频功能：十月即将推出

2025年07月30日由佚名发表 1973 0

通过简单的文本提示生成简短、可分享的视频在Grok上即将变得更为便捷，因为xAI计划在十月推出其全新的Imagine功能。这个工具由Aurora引擎驱动，用户可以直接从提示中制作带有同步声音的视频，缩短了从创意到成品的距离。此举将Grok定位为OpenAI的Sora和谷歌的Veo的直接竞争者，但其独特之处在于强调速度和趣味性，而不仅仅是视觉效果的精细度。

Grok的Imagine功能如何运作

Imagine功能直接集成在独立的Grok应用中，X Premium+订阅者可以下载使用。用户输入描述——例如“猫在太空中走路时发出呼噜声”或“宇航员探索外星景观”——然后会收到几个AI生成的视频选项供选择。每个视频剪辑都包含声音，使其无需额外编辑即可准备好用于社交分享或创意混音。

早期访问仅限于SuperGrok订阅者，这是一个每月30美元的付费层。订阅者现在可以加入候补名单，计划在初始发布后进行更广泛的推广。该工具目前可以创建最长六秒的视频，呼应了Vine流行的格式，并鼓励快速、病毒式内容创作。

订阅和访问详情

要尝试Imagine功能，用户需要：

下载独立的Grok应用。
订阅SuperGrok层。
加入十月开放的早期访问候补名单。

这种方法针对愿意为最新AI功能付费的用户，并帮助xAI在测试阶段管理需求和反馈。公司尚未设定最终的公开发布日期，但计划在初步测试后扩大访问。

主要功能和限制

Imagine功能以其快速、多模态输出而著称。用户可以：

从文本提示生成带声音的短视频。
将静态图像转化为动画视频剪辑。
自定义视频风格和格式（详细信息待完整发布）。

然而，目前的限制包括六秒的时长上限以及关于输出分辨率或可用声音库的信息有限。早期演示表明Aurora引擎提供流畅的运动和场景过渡，但xAI在这个测试阶段强调“最大乐趣”而非完美的现实主义。

内容审核和争议

Grok的新视频功能已经引发了争议。一些xAI员工指出其“刺激模式”和逼真人类视频的潜力，引发了对显性或非自愿内容风险的担忧。最近的美国立法，如“Take It Down Act”，现在使发布非自愿显性AI生成媒体成为非法，这对xAI施加了压力，要求其实施强有力的保障措施和审核工具。

Grok在争议性聊天机器人回应和AI伴侣方面的历史增加了另一层审查。公司已通过删除不当内容和承诺更积极的审核来回应过去的事件，但视频生成的推出将在更大规模上测试这些系统。

行业影响和竞争背景

通过添加带声音的文本转视频功能，Grok加入了超越文本和图像的AI平台的不断增长的领域。OpenAI的Sora和谷歌的Veo在视觉质量方面设定了高标准，但Grok的策略侧重于速度、可分享性和娱乐性。埃隆·马斯克确认当前模型优化为“最快时间制作有趣、可分享的视频”，随着xAI上线一个大型GPU集群，一个更强大的版本正在开发中。

此次发布可能会重塑创作者、营销人员和教育工作者生成快速周转视频内容的方式，尤其是在短小、吸引人的剪辑推动参与的平台上。声音的集成进一步简化了流程，使视频可以立即使用。

Grok的Imagine功能承诺加速从文本提示到病毒视频的转变，早期访问定于十月，明确强调速度、创造力和声音。随着AI视频竞赛的升温，Grok的趣味性和快速推出将受到用户和竞争对手的密切关注。

文章来源：https://allthings.how/grok-announces-text-to-video-feature-to-debut-in-october/

标签：

谷歌

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌AI模式新增持续规划画布功能

下一篇扎克伯格称未来没有AI眼镜的人将处于劣势

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体