点击蓝字关注,多点在看防失联
声
明
个人观点,不代表任何组织与单位
大家被OpenAI的Sora刷屏了吗?虽说很可能不需要,不过还是介绍一下Sora,这是OpenAI发布的文字转视频的生成式AI模型。只要给Sora这个模型提供一个文字提示(promt,提示词),Sora就能生成相应的视频。
生成式AI在OpenAI发布ChatGPT之后爆火,ChatGPT可以理解为AI写文章,产出的是文字。在这类Chatbot(聊天机器人)走红之外,AI绘画之类的也是红得不行,比如midjourney可以根据文字提示生成图片。可是个人觉得Sora提供的视频生成,给人的冲击力还是更大一些,毕竟视频不仅需要做到每一帧画面的真实,还要有帧与帧之间的连贯、合理。
Sora目前没有开放给公众使用,OpenAI网站上给出了一些范例,而OpenAICEOSamAltman也在社交媒体上根据别人提供的文字,用Sora生成一些相应视频。效果极为惊艳。比如一个衣着时尚的女子,黑夹克红长裙,黑靴黑钱包,墨镜红唇,在霓虹灯下,热闹的东京街头,闲庭信步:
生成这个视频的文字提示基本就是前面那段话,英文原版是:AstylishwomanwalksdownaTokyostreetfilledwithwarmglowingneonandanimatedcitysignage.Shewearsablackleatherjacket,alongreddress,andblackboots,andcarriesablackpurse.Shewearssunglassesandredlipstick.Shewalksconfidentlyandcasually.Thestreetisdampandreflective,creatingamirroreffectofthecolorfullights.Manypedestrianswalkabout.
给出的视频不仅长度达到了1分钟(59秒,1分钟为Sora上限),而且人物动作连贯性,背景乃至地面积水的反光倒影,都非常写实,完全有一种电影大片的感觉。不过呢,惊艳之余,我纯粹的外行,仍然忍不住想挑挑Sora的毛病。
首先看视频中的女主角,在第16秒的时候突然左右脚切换了,把这一段剪下来慢速播放:
这个慢速第5、6秒的时候出现换腿。
其次,不仅有换腿,AI生成的女模特在原视频25秒开始出现了连续几次的跳脚。同样剪下这一段采用慢速,方便观察:
这个慢镜头第4秒开始出现“跳脚”,第11秒后又出现连续的“跳脚”。
这种动作上的bug在背景里也有,如果仔细看原视频里,女子后面一位白色着装的男子(下图红圈内的人),走路过程中也出现过跳脚(看着就像人在平移),或是极为机械的重复(其实视频女主角也是,特别是左脚)。

另外一些细节也存在困扰AI生成图片、视频的不真或不连贯问题,比如仔细看女模特的左手,拇指的比例极为反常:

而视频前面红衣的胸口没有别的图案,夹克领口对称,而视频后段从近镜切出来时,胸口多了黑色花纹,领口也不对称了(虽然都挺时髦:)):

当然,我是在知道这是AI生成的视频的情况下去看视频,先知先觉意味着我会更容易注意到这些细节。若是事先不知道这是AI生成,我可能只会感觉到视频似乎有点怪,根本不会想到整个视频是假的,甚至都不会注意到这些奇怪的地方。
看了OpenAI发布的各个范例视频,这些bug也有一定规律。我个人的观察是主要bug集中在违背现实世界的物理规律上。像上述虚构的东京夜景里,模特的步伐bug。OpenAI也给出了类似例子,比如在跑步机上倒着跑步:

需要注意的是这似乎不是只在极端情况下才出现,而是在很多Sora生成的视频里都有,只是因为视频内容,包括场景复杂性等,有的视频里这类bug更突出,有的不那么起眼。
比如另一个非常惊艳的视频,樱花盛开飞雪飘飘的东京街头:
由于我们的注意力随着镜头在两位牵手散步的主角身上,周围的人物和樱花、飞雪都演变成了背景,这个视频看上去非常自然、漂亮。但如果你把注意力放到周围的人物场景,就会发现一些不对头的地方。比如下面圈出来的小店铺与行人:

不仅是与镜头中主角的身形比例很奇怪,而且视频第10秒开始,你能看到圈出来的那两个人像是穿过障碍物一样直接飞进了小店铺里面。
另一个非常惊艳的视频,猫玩主人的脸:
网络上最红的一类视频就是各种猫猫狗狗搞怪的视频,想见未来生成这类视频可能会大有市场。不过仔细看这个视频,有些画面可能会让你觉得这猫有点奇怪。这是因为它确实在有的画面里很怪:

像这个视频开头的一个正面照,你会看到猫的两只眼睛瞳孔不对称,左眼瞳孔宽,右眼窄,这可能是试图在左侧生成暗光下的效果,只是混淆了拍摄时影片的光影效果与猫实际处在位置的光照情况。类似的,右侧的胡子也被忽略了。
不过这个视频让我看着最“不舒服”的,是主人的手:

双手摆放的位置看着总不顺眼,就好像不是这个人的手一样。
这些违背物理或者说现实规律的bug,似乎和ChatGPT这类文字生成AI遇到的hallucination(幻觉)有一定类似。Sora尝试生成一个视频,即便遇到它不“理解”或是有理解有误的提示词,它仍然会坚持给你生成一个视频。
比如斑点狗爬窗子的视频应该是作为成功范例展示的:
可仔细看提示词:Thecameradirectlyfacescolorfulbuildingsinburanoitaly.Anadorabledalmationlooksthroughawindowonabuildingonthegroundfloor.Manypeoplearewalkingandcyclingalongthecanalstreetsinfrontofthebuildings。
应该是斑点狗往窗外看,行人在街上行走。Sora生成的视频成了斑点狗从窗户外行走。从OpenAI的描述看Sora似乎涉及到用GPT丰富提示词,再由DALLE形成构图。如果我的这个理解没错的话,上面的视频应该是完善提示词时就出现了“幻觉”,导致形成的视频与提示词原意相去甚远。
AI对物理规律或者说现实规律的把握能力,以及对提示词的理解(幻觉干扰),会造成细节缺憾,比如章鱼和帝王蟹的视频:
视频非常逼真,可是帝王蟹的腿,表现出来的质地和章鱼的触腕类似,毫无甲壳的坚硬质感。
不过相比整体视频的惊艳,这些bug可以说是瑕不掩瑜。而且上述bug对一些视频应用场景来说不明显或者说不重要,这意味着Sora如今的生成视频实际已经可以有应用场景了。
比如重塑加州淘金热时期的画面与bigsur风景(加州著名景点):
注意这类全景视频没有很多复杂的视频元素(比如人物)互动,就不太有bug。仔细看你可能能注意到海浪波动有点假,可是这样的全景视频一扫而过时,绝大部分人是不会注意微小细节的。
就应用而言,比如某影视剧需要一个历史场景镜头,实景拍摄、构建模型、电脑特效需要的时间、经济成本可能都要比这种AI生成大很多。如果不是特别重要、得反复出现的,Sora上述展示的有望取代。
当然,影视剧的一个挑战是片长,AI生成短时间的少数镜头,即便本身过关,能否和全片融合好,会有疑问。仅仅一两个镜头单独拿出来看可以,整体没法融合,对影视剧来说也很难用了。可这种短暂的生成视频至少有两个场景存在极大的施展空间:电子游戏与广告短片。
如果上面的加州淘金视频做成电子游戏风格,用于游戏转场,相信绝对能提升大部分游戏的逼格吧?想象一家游戏制作公司,可以节省多少人力物力,同时为各个产品提供精美的转场效果?
而AI生成的BigSur风景视频,用于切一个广告应该不会有人看出什么问题吧?那么广告商还需要雇个无人机拍摄吗?或者还有必要向GettyImages购买可以商用的视频、照片吗?
这也不可避免地带来了谁将被AI替代的话题。除了Sora一发布就叫苦连天的视频剪辑、特效等视频行业人员,我们还可以看看Sora生成的一个人眼近景:
看几个范例你会发现Sora生成这种单一个体,不涉及复杂交互的效果非常逼真(同理还有OpenAI给出的一个沉思的老头,以及宇航员电影片头),这些稍加调整就有望取代真人模特“拍摄”一些简单的广告。其实近年来已经有李维斯等服饰、时尚公司用AI生成的模特取代平面模特的争议。
不过相较于XX行业将被AI取代的争议,我个人更关注这类技术被滥用的危害。其实如果Sora未来被游戏、广告、影视行业应用,也会是一个工具,创作者的挑战会是如何在有这个新工具的情况下,做出真正亮眼的产品。一款电子游戏不会靠一个转场镜头就达到质的飞跃,一个广告业也不能仅靠一个AI构建的完美模特就令人信服。
可是在如今最流行的短视频领域,每个人的注意力停留在某个视频的时间可能是以秒计的。我们能区分AI合成的假视频与真视频吗?如果大量的虚构视频涌现,对我们的影响又将如何呢?这或许也是Sora如今只能由极少数人尝试,探究安全性的原因吧。
订阅关注防失联
订阅备用号
请订阅youtube:Y博的科普园
https://www.youtube.com/@Doctor_YZ/featured
原创不易赞赏随缘
未经允许不得转载:头条资讯网_今日热点_娱乐才是你关心的时事 » 外行被Sora惊艳后,开始给AI视频挑刺了
头条资讯网_今日热点_娱乐才是你关心的时事








