辽宁软件开发中心 - 辽宁软件网
首页>>软件开发 > 正文

AI 视频爆火!一张照片生成任意动作视频

来源:本站 发布时间:2024-02-29 22:00:20 标签:
浏览:45

工作群里的一个动图

这段蒙娜丽莎做瑜伽的短片,由 MagicAnimate 生成,这把许多人想一夜学会做视频的「白日梦」带到了现实里:现在只需要提供一张照片,就能生成指定动画视频。

单从效果看,AI 在生成领域的深耕,好像已经在专业视频的高墙上,凿出了一个巨大的门洞,从业者和爱好者都能在城里城外,穿梭自如。

模仿动画,也是魔法动画

MagicAnimate 是新加坡国立大学和字节跳动联合推出的「人体图像动画生成器」,能够把指定的人物图片按照既定动作序列生成视频。

只需要选择指定的图片和动作,就可以产出对应的动效短片。这时候发挥你的奇思妙想,许多名作的二创,又会因为你「无厘头」变得有趣起来。

戴珍珠耳环的斯文少女,也可以有活泼的一面。

和朋友约好的舞蹈课她又放了鸽子,没关系,她今天高低也得跳两下。

这两天和 MagicAnimate 一起冲上热搜的,还有另外两个明星选手,从其背后的创作团队看 —— 阿里、Google —— 就知道这是继大数据云计算、自然对话语言大模型后的,又一次大厂技术厮杀。

无论是照片中的真人,还是火影忍者的暴躁纲手,亦或在铁皮躯壳下的略带闷骚的 Iron Man,只要你有让它动起来的需求,在阿里优化的扩散模型中,静态人物都能生成动态视频。

甚至在阿里这里,你还可以为自己上传不同的服饰搭配,配合着模特的展示动作,在电脑前就能搭配出接下来一周的 OOTD。

Google 和前两位运用大体相似的技术逻辑下,在「The Chosen One」中对图像的一致性生成效果更有执念。

给 The Chosen One 一张图片,它还你一次环球旅行。

通过对你上传照片的特征分析, Google 的技能把你放进任何场景里,并且根据场景的变化搭配不同的衣服和动作,你也可以输入文本来生成对应的场景,相当于一个增强版的「DALL · E」。

真实感体现在细节上,比如上图最右侧的「在沙滩上」的照片,一个眯眼咧嘴的笑,将沙滩上烈阳高照体现地淋漓尽致,尽管没看到太阳但也能感受到那份刺眼。

画面的主角可以是你,也可以是你的宠物。

当拟人化的动物走进了画面,那这样的作品就能走进动漫作品和儿童读物。

把「卡通形象」和「真实场景」结合一下, 类似 AR 的效果虽然拍不出《空中大灌篮》这样的融合大制作,但来一张类似的合影,现在也不是什么难事。也难怪 Pixel 8 会有难得的口碑,对 AI 图像生成的研究,Google 是真没少下功夫。

接近现实,是终极目标

三者的技术语言和模型都略有不同,MagicAnimate 通过「视频扩散模型」捕捉时间信息、「外观编码器」保持外观一致性来生成流畅的画面。

二者再通过视频融合技术,确保长视频动画过程中的平滑过渡。专业术语有点懵没关系,和传统技术对比一下就能直观感受新科技的魔法。

MagicAnimate 的创作优化,即使在在挑战性极高的 TikTok 舞蹈数据集上,成像的真实度比最强基线还高了 38%。最右列的视频在对比下,还原度和真实性的确是当中佼佼者。

我本想用「马斯克 + 热舞」验证一下这个 38% 的真实性,在生成器中上传照片和动作后,很遗憾截止发稿前我都没能排上号,有种 10 点之后排队吃海底捞,但没「黑卡」的无奈。

阿里团队的「Animate Anyone」通过程序算法提升模型在「时间」「空间」「交叉」维度上的注意力,以此达到逼真的成像效果。

成果展示是对专业技术最好的解释,通过 Animate Anyone 的创作,我们可以看到与 MagicAnimate 相似的效果,甚至在人物面部保持上,阿里团队在展示成品中,做得更出众。

但不管用上了怎样的复杂技术,其目的都在指向一个生成效果:「保持多视图一致性」。

我们用最直观的方式来把这个复杂的技术尽量解释清楚:在视频制作特别是动漫制作中,人物的动作是通过逐帧过渡完成的,原理类似于小时候经常玩的手翻书,每一页都是静态的手绘稿,快速翻动就能通过人眼「视觉暂留」的 BUG 让画面动起来。

手翻书原理展示 . 图片来自:@翻页书安迪 Andymation

因此在制作虚拟形象之前,会用「三视图」作为基准点,将人物的其他动作补充完整,早些年的一些 AI 高清视频就是在原有的帧数基础上用「暴力加帧」的方式,来获得更高清、连贯的成像效果。

上述三家公司正在攻克的「扩散模型」,最大的难点是用仅有的一张图片,来自动「脑补」接下来的动作和场景,并且前后都没有参照物。

所以官方的对比展示中,看到传统技术「DisCO」被作为反面教材反复鞭打,其严重的失真效果只能做到让主体动起来,但扭曲的身型和奇怪的动效完全称不上作品。

当然这也侧面看出了字节、阿里和 Google 在「一致性」保持中的突破性成就,对 AI 生成的视频最大的夸奖,就是很逼真。

吹毛求疵地对比了三家的前沿技术,尽管在主体的细节把控上还略有失真,但和以前相比已经有了彻底的变化,起码「黑科技」引入短视频平台时,会有相当多的创作者会使用它们作为下一个成品的创作工具,产品从 PPT 走到现实,最终还是依靠过硬的本领。

在翻阅 MagicAnimate 的论文时,摘要最后的一句话,有种似曾相识的感觉

Code and model will be made available.

这并不是字节第一个开源的项目,在此之前其已经公开了 Magic 家族中的另外两项技术的代码:「MagicEdit」「MagicAvatar」

创造魔法,用这三板斧

用 MagicAnimate 一个软件来和其他两家的技术比较,似乎没有显现出像网上讨论的那般优势,但集齐「Animate」「Edit」「Avatar」这三板斧,字节跳动在视频生成的创新中,就有些「摇摇领先」的趋势了。

MagicAvatar 是视频界的 DALL · E,并且是超级加倍的版本,最基础的功能就是用文本生成指定的动图,这和 GPT 的图像生成大同小异,只是生成对象不同。

进阶的使用方式,给定一个源视频,再输入想呈现的效果,你会打开新世界的大门,甚至会有一种「奥斯卡有手就行」的蜜汁自信。

看看 MagicAvatar 给出的答卷,你就能懂得这种自信不是空穴来风,成像真的很逼真。

当然还有一种混合玩法,就是在文章开头 MagicAnimate 所展示的能力:静态图片通过指令生成动态视频。

MagicEdit 在三者当中的定位更加通用,通过高保真度和时间连贯性来生成视频的编辑工具,在不改变视频整体动作进程的基础上,调节视频当中的部分元素,如「颜色」「天气」「主体种类」来生成一幅新作。

生成过程中也会创造出一些有点违和的物种,比如「虎兔」「狗猫」。这是我们最喜闻乐见的环节,这种「失误」也往往能给这些人工智能的新技术带来再一次热度。

印象最深的是这个场景扩充的功能,不仅能给较小的视频画面增添画幅、扩充背景,还可以把增加后的主体缺失部分完全补齐。

跑步的帅哥到底穿长裤还是短裤,画幅横着还是竖着现在都由你说的算。

抖音当中已经加入了类似的 AI 扩图模版,经过我们的实测效果不错,但评论区翻车的场景应该会比任何一个正常生成的案例都能让你记忆犹新。

不用去考究这些失败作品的真实性,因为在大家愿意将其作为笑点中心的时候, AI 生成视频的第一个目的就已经达到了:去体验新的技术,并且参与在其中。

新的可能,在新技术里

一天之内翻阅了各大公司在视频「扩散模型」的最新成就,算不上打开了新世界的大门,但接近真实的生成效果仍然能让我留下深刻的印象。

但从新技术的新鲜感中跳脱出来,会有一种「这能干吗」的强烈疑问。

如此庞大的观众数量需要有更多元的视频内容来填充我们的浏览需求,而如此硕大的创作需求也要有更多的新技术来激发制作人的创意和灵感。

依靠 AI 视频生成、一致性保持技术,我们的确可以在不久的将来,看到更多的创作者因为新科技打开更多的创作灵感,也会因为震撼的视效带给网民更高质量的冲浪内容,今后的大片特效不再是专业导演和剪辑师的专属,有创意的你用手边的电脑,也能给短视频注入更多的可能性。

以上的所有技术,就是在给短视频和创作者,创造新可能。


标签:

活动

更多 >

热门文章

  • 58同城等网络招聘诈骗涉案金额近亿元,六大网络
    58同城等网络招聘诈骗涉案金额近亿元,六大网络

    58同城等网络招聘诈骗涉案金额近亿元,六大网络

    近日,澎湃新闻发布了一篇关于58同城、赶集网等网站的招聘防骗指南的文章。澎湃新闻表示,其从中国裁判文书网搜...

  • 抖音:机器与人工双审核 对不良内容永久封号
    抖音:机器与人工双审核 对不良内容永久封号

    抖音:机器与人工双审核 对不良内容永久封号

    据悉,近日网上爆出《小学生在家发抖音妈妈洗澡被直播》,一名小女孩在玩抖音时,背景出现其妈妈洗澡画面。抖...

  • 亚马逊卖家提高店铺销量最有效的14个方法
    亚马逊卖家提高店铺销量最有效的14个方法

    亚马逊卖家提高店铺销量最有效的14个方法

    亚马逊作为电商平台的“一哥”,它不仅能帮助卖家提高销售额,还能扩大品牌曝光率。世界各地的亚马逊卖家都在...

  • 5G投票门还未平息,柳传志为10家企业高管上了一
    5G投票门还未平息,柳传志为10家企业高管上了一

    5G投票门还未平息,柳传志为10家企业高管上了一

    5月初,两年前联想的一场5G投票事件被莫名其妙翻出,被扣上“卖国贼”帽子的联想卷入舆论漩涡中。现在中关村南...

  • 美国电商全面征税 科技股应声下跌
    美国电商全面征税 科技股应声下跌

    美国电商全面征税 科技股应声下跌

    据悉,当地时间6月21日,美国电商行业迎来了一个历史性的时刻。21日,美国最高法院以5比4的投票推翻了1992年的一项...

软件开发

更多 >
  • AI 视频爆火!一张照片生成任意动作视频
    AI 视频爆火!一张照片生成任意动作视频

    工作群里的一个动图这段蒙娜丽莎做瑜伽的短片,由 MagicAnimate 生成,这把许多人想一夜学会做视频的「白日梦」带到了现实里:现在只需要提供一张照片,就能生成指定动画视频。单从效果看,AI 在生成领域的深耕,好像已经在专业视频的高墙上,凿出了一个巨大的门洞,从业者和爱好者都能在城里城外,穿梭自如。模仿动画,也是...

  • 智慧校园APP软件开发制作
    智慧校园APP软件开发制作

    现在,校园开始向智能化方向发展。结合一些现代科技后,可以帮助校园建立一个比较完善的服务体系。基于智慧校园APP软件,学校的师生可以通过智慧校园APP软件完成更多的服务。结合智能移动终端方便快捷的操作,提升用户使用智慧校园APP软件的体验,更加符合这个时代校园的发展需求,提高师生在校园生活中的便利性。 绝大多数...

软件开发5G投票门还未平息,柳传志为10家企业高管上了一
软件开发贝佐斯提3种可能性:希望能找到第四个支柱
软件开发库克:中美贸易摩擦不会导致iPhone加税
软件开发社交电商风头正盛,刘强东:天上永远不会掉馅
软件开发章燎原:三只松鼠不再是一个电商品牌

专题

更多 >