記者實測Sora2,AI視頻的GPT

第一財經(jīng)記者實測Sora2發(fā)現(xiàn),實測視頻相比去年發(fā)布的實測視頻初代Sora,Sora2在物理邏輯、實測視頻畫面一致性、實測視頻真實感上都有顯著提升,實測視頻一張照片加一句提示詞,實測視頻AI就能創(chuàng)作出有劇情、實測視頻有文案的實測視頻短片。
但“現(xiàn)實不存在了”嗎?實測視頻從測試來看,Sora2尚未完全跨越“真實”這道門檻。實測視頻
至頂科技總編輯、實測視頻PEC聯(lián)合發(fā)起人高飛對記者表示,實測視頻Sora2比起上一代Sora是實測視頻一個大版本更新,在很多場景都達到了以假亂真的實測視頻程度,不過,實測視頻相比其他AI產(chǎn)品Sora2的技術(shù)并沒有代差領(lǐng)先,更值得關(guān)注的是其產(chǎn)品玩法,在打造互聯(lián)網(wǎng)產(chǎn)品方面,他認為OpenAI暫時領(lǐng)先于其他公司。
OpenAI在官方博客中宣稱,Sora2是“邁向GPT-3.5時刻的一步”。但AIGC創(chuàng)作領(lǐng)域的KOL@尾鰭Vicky認為,對于創(chuàng)作者來說,可能這一時刻還沒到來,畢竟產(chǎn)品還是無法徹底解決一致性和物理問題。但對于大多數(shù)普通受眾來說,玩AI視頻可能真的變成了一件很接近、且很有趣的事情。
實測Sora 2:優(yōu)缺點同樣突出
毫無疑問,過去兩天,OpenAI做了一場成功的產(chǎn)品發(fā)布營銷,截至發(fā)稿,在美區(qū)iOS的免費應(yīng)用排行榜上,Sora APP已經(jīng)空降第三位,僅次于谷歌的Gemini和OpenAI自家的ChatGPT。
由于Sora采用邀請制免費使用,在國內(nèi),閑魚上已經(jīng)出現(xiàn)29.9元買邀請碼的生意,不過單價6.88元的邀請碼更受歡迎,界面顯示已經(jīng)有近50人想要。

用戶在使用Sora2之前都需要準備一個邀請碼,邀請碼注冊后,可以再裂變出4個邀請碼,再分享給朋友。而邀請碼一旦被使用,就會自動關(guān)注邀請對象,由此逐漸形成好友網(wǎng)絡(luò)。從這點來看,Sora從一開始就植入了強社交基因。
有人將Sora稱之為“AI版抖音”,應(yīng)用主頁是垂直視頻流,用戶可以上下滑動瀏覽不同用戶發(fā)布的視頻,但應(yīng)用上所有的內(nèi)容都是AI生成的。在生成視頻時,用戶可以選擇上傳圖片并結(jié)合文字提示,也可以用“Cameo”(客串)功能,基于自己或朋友形象進行提示詞生成。
Sora2是Sora APP的技術(shù)底座,OpenAI在博客中表示,Sora2可以完成之前的視頻生成模型難以完成的事情。它比之前的系統(tǒng)在物理上更加精準、逼真,并且在可控性方面有了巨大的飛躍,此外,它還配備了同步音頻。
在拿到邀請碼后,第一財經(jīng)記者測試了基于Sora視頻生成的效果,確實相比初代有了大幅提升,其輸出的結(jié)果已經(jīng)基本能滿足C端用戶娛樂的需求,較為亮眼的地方在于,AI在鏡頭語言上很豐富,對話有想象力,音頻輸出方面口型與發(fā)音一致。但目前一個10s的視頻需等待數(shù)分鐘才能生成,速度并不快,且分辨率不高。
以奧爾特曼為主角,記者給AI的提示詞是:@sama在工作敲代碼,一只銀漸層走過來生氣地關(guān)掉了電腦主機電源,他們開始吵架。

在這個視頻中,Sora精準特寫了貓爪關(guān)電源的畫面,伴隨準確的關(guān)機音效,也展現(xiàn)了奧爾特曼吵架時生氣的表情和姿態(tài),細節(jié)和環(huán)境都很真實。在發(fā)音時,人物的口型也能對得上。
值得一提的是,Sora還會補充給角色“加戲”,在提示詞中記者只提到了“開始吵架”,但AI視頻對話中,貓咪會抱怨“你一下午都沒陪我,而且風(fēng)扇像拖拉機一樣”,主角則回復(fù)“先開回來,咱倆再談”。 情節(jié)補充自然,配合場景非常真實。
但這一產(chǎn)品也并非毫無瑕疵,例如,錄入人臉輸出的視頻并不完全像本人,有用戶反饋是“似像非像”的效果,同時,Sora在事實邏輯上仍有錯誤,在一個用滅火器的場景中,滅火器噴霧的出口并不準確。

中文支持更是“重災(zāi)區(qū)”。例如,有用戶讓奧爾特曼成為外賣員,其外賣服上出現(xiàn)了憑空生造的文字。

@尾鰭Vicky認為,Sora優(yōu)點很明顯,用戶數(shù)字人的物理效果和唇型驅(qū)動效果很好,且在APP的使用交互上下了一些功夫,例如從注冊就讓用戶在“驗證”的過程中完成素材內(nèi)容的錄制,且是很短的音頻和視頻,就能輸出不錯的效果。此前這樣圖生、文生視頻路徑已經(jīng)出來很久,但效果應(yīng)用都沒有Sora這么自然、對用戶如此友好。
但另一方面,Sora缺點同樣突出。@尾鰭Vicky提到,雖然相比初代Sora2的物理理解問題已經(jīng)更好了,但涉及到多元素的物體交互時,還是會出現(xiàn)手腳和臉糊等丟失細節(jié),動作不符合物理邏輯等問題。從這個維度上來說,Sora2在模型能力的提升上并沒有邁到可以真正解決技術(shù)問題的那一步。
GPT-3.5時刻到了嗎
在官方博客中,OpenAI將2024年2月的初代 Sora比作“視頻的GPT-1時刻”,而 Sora2則被定義為“可能直接跳到了GPT-3.5的時刻”。
博客中解釋認為,之前的視頻模型會變形物體和變形現(xiàn)實,但Sora 2可以做一些對于之前的視頻生成模型來說非常困難的事情,如奧林匹克體操動作,在槳板上的后空翻,精確地模擬浮力和剛性的動態(tài)。模型在可控性方面也有了很大的飛躍,能夠創(chuàng)建復(fù)雜的背景音、語音和具有高度真實感的聲音效果。
但問題是,AI視頻的“GPT-3.5時刻”真的來了嗎?@尾鰭Vicky認為,至少對于創(chuàng)作者來說還沒有,因為Sora 2還是無法徹底解決一致性和物理問題。但對普通用戶來說,AI視頻的門檻已大幅降低,用戶玩AI視頻真的變成了一件很簡單且很有趣的事。
高飛認為,Sora2相比其他AI產(chǎn)品Sora2的技術(shù)并沒有代差領(lǐng)先,例如谷歌有Veo3,也有Nano banana以及世界模型Genie3,在多模態(tài)方面相當(dāng)強悍。而國內(nèi)的可靈、即夢也能與之一戰(zhàn)。
今年5月,Veo3推出時也曾在社交網(wǎng)絡(luò)火出圈,一些人物視頻極具真實感,被認為是AI視頻領(lǐng)域領(lǐng)先的水準。但彼時行業(yè)人士仍然認為,現(xiàn)階段的AI視頻對實際生產(chǎn)幫助仍然不算太大,并未來到真正的GPT時刻。
相較于模型技術(shù),高飛認為Sora2更值得關(guān)注的是產(chǎn)品玩法。OpenAI將它打造成了一個更類似于短視頻的消費者App,其主要機制是要求用戶上傳自己的臉部數(shù)據(jù)和聲音信息做AI二創(chuàng)?!斑@樣一方面很容易拿到了最為寶貴的消費者面部數(shù)據(jù),其次用戶基于自己的人臉創(chuàng)造的視頻,配合邀請碼機制,也很容易吸引親朋好友鏈式傳播?!?/p>
因此,高飛的觀察是,“OpenAI可能在模型不一定是最強,但是在打造互聯(lián)網(wǎng)產(chǎn)品方面,領(lǐng)先于其他所有公司?!边@次Sora2不追求畫質(zhì)和時長,也是典型的互聯(lián)網(wǎng)打法,先完成再完美,后續(xù)再迭代。
@尾鰭Vicky也認為,Sora2這次的發(fā)布更側(cè)重APP的交互設(shè)計,并不僅是模型本身的更新?!癝ora2目前的定位,似乎并不是以專業(yè)的AI視頻創(chuàng)作為導(dǎo)向,而是更專注于如何用AI視頻來完成用戶社交,做尋找應(yīng)用場景的新嘗試?!?/p>
從海外市場來看,對于Sora2和Sora應(yīng)用的發(fā)布則褒貶不一。有用戶認為技術(shù)驚艷、創(chuàng)造力會大爆發(fā),也有人認為這些無聊的視頻毫無意義,與宏大的AGI愿景、人類福祉相悖。
有用戶發(fā)帖諷刺稱,2周前,奧爾特曼說“我們需要 7 萬億美元和 10 吉瓦來治愈癌癥”,他現(xiàn)在表示“我們正在推出以個性化廣告形式營銷的 AI垃圾視頻”。
奧爾特曼轉(zhuǎn)發(fā)了這一帖子,并回復(fù)稱需要資金來繼續(xù)研究AI,并且?guī)缀跛械难芯烤θ匀患性谕ㄓ萌斯ぶ悄苌稀?“向人們展示很酷的新技術(shù)或者產(chǎn)品,讓他們開心,并借此來賺取一些錢,這也是一件好事?!眾W爾特曼稱,當(dāng)談到公司的最佳發(fā)展軌跡時,現(xiàn)實情況是微妙的。
“重要的是讓人類從這些模型的開發(fā)中受益。我們認為Sora會給世界帶來很多歡樂、創(chuàng)造力和聯(lián)系?!監(jiān)penAI在博客中寫道。未來,隨著視頻模型持續(xù)進化,通用世界模擬器與機器人Agent將重塑社會,無論如何,Sora 2朝這一目標邁出了重要的一步。