以假见真,5 款 AI 视频生成工具丨AI 情报局

科技 2024-05-07 09:05 阅读:

你知道这是假的,所以需要思考什么是真的。

欢迎来到“AI情报局”,我们提供最热的AI产品推荐、人工智能最新动态和创新案例。帮助AI开发者、创业者、产品等专业人士保持信息的前沿性,促进知识的共享与交流。 添加vx:aitechreview向我们投稿,无论是研究成果、项目案例还是行业见解,只要内容丰富、观点独特,我们都期待与大家一起探讨,推动AI技术与应用的进步。

随着人工智能技术的飞速发展,AI在多媒体创作领域的应用也日益广泛。其中,AI生成视频技术逐渐崭露头角,为视频制作带来了前所未有的便捷。

从自动剪辑、特效添加,到智能配音、字幕生成,甚至自动通过AI生成视频的技术正逐步改变着传统视频制作的流程。

因此“眼见为实,耳听为真”或许在不久的将来被以下这些AI生成工具给打破。

01

第一梯队Runway

公司名片

Runway创立于2018年,团队目前是AI生成图像、视频领域的第一梯队,也是其在2021年为Stable Diffusion创建了第一个版本。在2023年谷歌领投的D轮融资中募集到约一亿美元,估值达到15亿美元,成为生成式AI领域的独角兽。

产品特点

  1. Runway的核心功能是利用生成式AI技术生成视频内容。用户可以通过输入文本描述、关键词、样式提示等,通过运动笔刷(Motion Brush)和多运动画笔让AI自动生成相应的视频片段,无需传统视频制作中的复杂拍摄和后期处理步骤。

  1. 优点:直观的交互界面、高保真度、实时反馈与迭代编辑以及集成Adobe Creative Suite、Unity等工具。

缺点:模型倾向于更精细的视频制作,但在精细度上成品的制作不支持侧脸,也不支持识别动物面部,相对于中文的口型,英文口型表现会更好。同样的需求,使用其它相关领域的数字人生成比Runway性价比更高

使用场景

Runway适用于影视制作、广告营销、教育培训、艺术与设计以及游戏开发等,视频创作者、市场营销专业人士以及教育工作者提供技术支持。通过Runway进行图片生成视频也是目前效率上最接近商业产出的AI视频方案。

体验链接:https://app.runwayml.com

02

国人弯道超车的Pika

公司名片

Pika 是美国AI初创公司Pika Labs开发的视频生成工具,该公司由华人郭文景和孟晨琳共同创办,为用户提供基于文本和图像的视频创作。截至2024年,公司估值达14亿人民币

产品特点

Pika支持用户通过输入详细的文本描述或脚本生成视频。通过文本AI算法会据此自动生成相应的视觉场景和动态画面。另一边Pika支持上传静态图像作为素材,并将这些图像转化为动态视频。

优点:在视频生成后Pika提供了视频元素编辑、样式转换、尺寸调整、视觉效果优化以及Lip Sync(唇形同步)等技术支持,为视频中的角色添加语音对白。再添加适当的运动、过渡效果以及可能的附加元素,即可微调控制视频的内容。实现与语音内容精确匹配的嘴唇同步动画效果。

缺点:目前视频的不可控因素仍然过多,只能生成最长7秒的视频,在生成的视频精确度和保真方面也不理想。

使用场景

目前Pika支持生成4秒长度的视频,且操作简单,初次接触者也没有使用门槛。但鉴于生成是视频局限于4秒的长度,输出的成品并不足以支撑视频的价值需求。通过Pika生成的视频,需要人工的后期处理,通过目前的剪辑后期手段才能成为完整的有价值的内容。

体验网址:https://pika.art/

03

仍未变现的Stable Video

公司名片

Stability AI成立于2020年,并在短短三年内迅速崛起,在2022年10月17日宣布获得了1.01亿美元的融资,其估值达到了惊人的10亿美元,成为了科技界的独角兽之一。

产品特点

Stable Video Diffusion是由Stability AI开发的一款开源AI视频生成工具,基于稳定扩散图像模型构建,可以将文本和图像输入转换成生动的场景,并运用到成实景电影创作。它适用于媒体、娱乐、教育和市场营销等领域的视频应用。

使用场景

该模型目前仅以研究版本发布,主要用于收集关于安全性和质量的反馈,以便于未来的完善和正式发布。它支持将单一图像进行多视角合成,并可通过对多视图数据集进行微调来适应各种下游任务。

此外,Stability AI还宣称开发基于此基础模型之上的一系列新模型,以构建类似于稳定扩散的生态系统。

优点:Stable Video Diffusion能够生成14帧到25帧的视频,帧率可在3到30帧每秒之间自定义,处理时间通常不超过2分钟。以此为前提,Stability AI提供了一个非商业社区许可证,允许用户免费使用该模型进行研究和其他非商业目的。

缺点:功能运用略复杂,在功能强大的前提下是需要使用者对视频的分镜、光影的理解。与大部分情况下期待的AI自动生成有一定的差距。

体验网址:https://www.stablevideo.com/

04

被市场接受的腾讯智影

公司名片

发布于2023年3月,腾讯内部创业型,主要团队前身是微视发布器的骨干,在短视频剪辑领域的技术和商用经验相当丰富。截至2024年3月,腾许智影开放了付费高级会员,支持生成数字人视频时长以及专业音色的文本配音服务,此外还有针对视频剪辑的智能字幕、格式转换等,解决了视频剪辑痛点。

产品特点

腾讯智影主要功能为云端视频编辑,它的核心功能由AI技术驱动,包括数字人播报、文本配音、文章转视频、自动字幕生成、智能去水印、视频解说以及横竖屏转换等。

优点:功能模块化程度优,易用,垂直功能效率高,产出快。通过SaaS模式提供服务,支持使用者通过浏览器在线进行视频创作和协作,视频投入商用的门槛被降低。

缺点:以文本生成的图片再通过AI辅助剪辑,只能产出初级的视频内容,以目前对AI的期待值,腾讯智影在技术前景上基本与第一梯队无缘。

使用场景

腾讯智影提供的一站式视频创作工具,具备视频剪辑、素材库等,可用于高效制作专业级视频内容。平台还支持团队协作功能,如版本管理、权限控制和在线评论,便于多人协同工作,并能快速将成品分享至社交媒体,提高工作效率和内容分发效率,对短期变现的帮助很大。

体验链接:https://zenvideo.qq.com/

05

仍未落地的Sora

公司名片

由OpenAI发布的一款人工智能文生视频大模型,OpenAI是一家致力于人工智能研究与开发的跨国科技公司,由一群硅谷企业家于2015年12月创立,总部位于美国旧金山。

起初,OpenAI被设定为一个非营利性机构,旨在推动人工智能的发展,使之造福全人类,而不受财务回报的限制。此后OpenAI又增加了一个营利性子公司OpenAI global,并通过其获得了巨额投资,其中包括来自微软的百亿美元。

产品特点

Sora采用了与GPT模型相似的Transformer架构,并结合了Diffusion模型的特点,能够处理长序列数据,并通过自注意力机制捕捉数据中的依赖关系,从而提高生成视频的质量和多样性。因此在初次公布时,Sora宣称可以完全遵从现实物理学生成视频。

优点:以1分钟的时长并将现实中的物理学解析到视频中,有助于广告、影视、特效以及科研推演等行业的积极发展

缺点:Sora对物理学的理解还有问题,并没有官方所声称的那样完美;生成视频画面的连续性和一致性还存在不稳定性。

使用场景

Sora继承了DALL-E 3的画质和遵循指令的能力,能够生成具有多个角色、特定运动和复杂场景的视频,同时理解并遵守用户的文本提示,并保持视频的一致性、连贯性和合理性3。此外,Sora还具有根据静态图像生成视频、扩展和填充现有视频缺失帧、连接不同主题和场景的视频等功能。

目前Sora仍处于小圈子范围的使用,仅有邀请测试的专业团队可实际参与Sora的使用。

  • 网址:https://openai.com/sora

06

以AI的假来见人类的真

目前,通过AI模型,如Stable Video Diffusion和Sora,创作者可以快速地将文本或图像转换为视频内容,节省了大量的时间和精力,极大提升内容创作的效率和质量。

这不仅适用于广告、游戏、电影等创意产业,也有望在教育、新闻报道、社交媒体等多个领域得到应用。

其次,AI视频生成技术的发展也将推动个性化和定制化内容的生产。用户可以根据自己的需求,通过简单的文本描述或选择特定的图像,生成符合自己期望的视频内容。这将使内容消费更加个性化,满足不同用户群体的需求。

然而,AI视频生成技术的发展也伴随着一系列的挑战。

一方面,如何确保生成内容的质量和真实性是一个重要的议题。AI生成的视频可能会误导观看者,尤其是在政治、新闻等重要领域,因此需要建立严格的审核机制和内容质量控制体系。

另一方面,AI视频生成技术也可能引发版权问题。当AI模型能够轻易地复制和模仿现有的视频内容时,AI的“假”将会挑战人类的“真”,如何界定原创性和知识产权变得更为复杂。

专注大模型、AIGC领域,欢迎AI开发者添加(vx:aitechreview),共同探讨AI产品创新和前沿技术资讯。

阿里云「敢死队」

明略 走过冬天

当华为 Pura 70 不再「缺货」