谁是中国版Sora

科技 2024-05-07 08:51 阅读:

“面对Sora带来的挑战,不妨让子弹再飞一会儿。”两个多月前,OpenAI又一记深水炸弹,以文生视频大模型Sora引爆全球,当时谈及国内外文生视频大模型的差距,伽利略资本合伙人郑譞作出了这样一句评价。两个多月后,“预言”应验。先是生数科技联合清华大学发布了视频大模型Vidu,一度被外界形容为中国首个Sora级视频大模型,近日,亦有媒体报道称,智谱AI也正研发对标Sora的国产文生视频模型,最快年内发布。随着企业竞相入局,国内文生视频大模型明显进入加速阶段。但就像郑譞说的,Sora的出现并非技术上的突破,而在工程方面,国产大模型的差距其实并没有多远,“从本质上讲,场景或许是比工程突破更值得思考的一件事”。

Sora之后

近日,有媒体报道称,智谱AI正在研发对标Sora的高质量文生视频模型,预计最快年内发布。对此,北京商报记者联系了智谱AI,对方表示该消息非官方信源消息,没有其他信息可以提供。

公开资料显示,智谱AI由清华大学计算机系技术成果转化而来,也是国内最早研发大模型的企业之一。今年1月,智谱AI发布新一代基座大模型GLM-4,智谱AI CEO张鹏曾介绍称,GLM-4的整体性能相比上一代大幅提升,逼近GPT-4。

在此之前,国产文生视频大模型已经掀起过一波浪潮。4月27日的2024中关村论坛年会上,清华大学联合生数科技正式发布中国首个长时长、高一致性、高动态性视频大模型Vidu,引发热议。

据介绍,Vidu是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平。

“Vidu是全栈自主创新的最新成果,在多个维度上实现了技术突破,包括可以模拟真实物理世界、具有想象力、可以理解多镜头语言而不再是简单的镜头推拉、可以一键生成长达16秒的视频、人物场景时间保持高度一致性、可以理解中国元素。”当时,清华大学教授、生数科技首席科学家朱军介绍称。

对于外界最关心的,Vidu和Sora的对比,朱军也在现场做了展示,比如Sora在视频生成过程中丢掉了“旋转”这一关键词,但Vidu则能较好地抓住这一内容,实现视频视角的丝滑“旋转”。

不过也有分析认为,Vidu的16秒与Sora的一分钟仍存在算力和工程方面的巨大差距,对此,有业内人士对北京商报记者提到,Vidu的架构本身足够支持更长时间的视频生成,生数科技也介绍称,Vidu正在加速迭代提升中。

值得一提的是,智谱AI与生数科技均出自“清华一脉”。此外光年之外、月之暗面、百川智能、面壁智能等均有清华学子的影子。有媒体引用业内人士的分析称,清华系大模型公司的格局是以智谱AI为中心,布局人工智能上下游。今年3月,生数科技宣布完成新一轮数亿元融资,智谱AI就是跟投者之一。

产品化才是关键

事实上,自Sora发布之后,国内文生视频领域便已开始升温。例如Sora发布的2月,清华大学便公布了一项文生视频专利。同月,中国首部文生视频AI动画片《千秋诗颂》播出。而在Vidu发布的第二天,国内首个音视频多媒体大模型万兴“天幕”正式公测。

据Gartner研究预测,到2030年,90%的数字内容都将是AI生成。预计2032年,全球AIGC市场规模将由2022年的108亿美元增加至1181亿美元。

经济学家、新金融专家余丰慧对北京商报记者分析称,文生视频的成功构建意味着AI模型能够处理更高维度、更复杂的数据,并进行创造性表达,这表明模型正朝着理解和创造世界的不同层面演进,这与AGI所追求的认知和决策能力更加接近。

“Sora这样的文生视频技术一旦成熟,理论上有可能颠覆传媒业、影视制作、游戏开发、虚拟现实、广告创意、教育等多个行业。它能够在短时间内根据用户需求自动生成高质量视频内容,大大降低创作成本,提高生产效率。”余丰慧补充称。

在接受北京商报记者采访时,郑譞提到,文生视频可以简单类比成分镜脚本,利用文本信息生成关键帧,以帧与帧的画面联合形成连续视频。在这个过程中,更多属于工程上的创新,而非技术层面的颠覆性突破,这也意味着国内外大模型的差距不会太长,整体时间差距可以保持在半年之内。

也是因此,比起工程上的突破,郑譞更关注的其实是应用场景。据他观察,AI短片在行业内的“单子”还非常小,更像是实验性质的尝试,比之成熟的商业制作“大片”还有很大差距,“基本可以忽略不计”。

更缺的是推理算力

企业竞相入局文生视频大模型,也引发出了另一个关键问题——算力。早在Sora发布后不久,360集团创始人周鸿祎就曾公开提到,Sora的技术路线如果被开源,国内将能很快赶上,但在追赶Sora时,算力有可能成为门槛。

中信证券曾简单估算,一个60帧的视频(约6—8秒)需要约6万个Patches,如果去噪步数是20的话,相当于要生成120万个Tokens。同时考虑到扩散模型在实际使用时往往需要多次生成的特点,实际计算量会远超120万个Tokens。

天使投资人、资深人工智能专家郭涛对北京商报记者分析称,大模型的训练需要处理大量的数据和复杂的计算。如果没有足够的算力,训练这样的模型将非常困难。其次,目前全球的算力资源是有限的,而且大部分集中在一些大型科技公司手中,这就使得其他公司或者研究机构在获取足够的算力资源方面面临挑战。

不久前,月之暗面的Kimi智能助手走红成为“小爆款”,因使用人数激增,Kimi App和小程序一度出现无法正常使用的情况。当时中信建投层发布研报称,随着Kimi用户数持续提升,已经出现短暂算力支持不足的情况,考虑后续模型训练和推理需求,预期算力需求会进一步提升,带动算力需求落地。

“推理算力很可能会是创投圈的下一个机会。”郑譞总结说。

北京商报记者 杨月涵