ChatGPT後 OpenAI推出Sora文本轉視頻跨時代模型

OpenAI公司2月15日發布Sora文本轉視頻模型,能夠根據用戶的提示詞生成長達一分鐘的視頻,效果足以亂真。網絡圖片

世界最領先的人工智能公司、位於美國加州的OpenAI公司2月15日發布Sora文本轉視頻模型,能夠根據用戶的提示詞生成長達一分鐘的視頻,效果足以亂真,和一年前該公司推出ChatGPT引發的全球震撼一樣,Sora的橫空出世再次引發一片驚呼興奮,業界讚揚稱AI技術畫時代的里程碑。

Sora名稱源於日文的“空”,即天空,以表示其無限的創造潛力,其背後使用的是生成式 AI技術,可根據用戶文本提示可生成長達 60 秒的視頻。該模型還可以從現有的靜止圖像生成視頻。而生成式 AI 是 AI 的一個分支,使用AI 來創作新內容,例如文本、圖片、音樂、音頻和視頻。已有的例子有如聊天機器人 OpenAI 的 ChatGPT,以及圖像生成器DALL-E等。讓 AI 系統生成視頻更新、更具挑戰性,但依賴的是一些相同的技術。

OpenAI周四向公眾展示了由Sora生成的多個高清視頻,具有電影質感的視頻對人物、動物及物品的特寫纖毫畢現,背景豐富、畫面生動流暢,令人難以置信。儘管如此, OpenAI 指出仍Sora仍然存在一些弱點,包括一些空間和因果元素問題,如OpenAI在其網站上補充所說的,可能出現“一個人咬一口餅乾,但之後,餅乾可能沒有咬痕”。

實際上,OpenAI的Sora並不是第一個展示文本生成視頻技術的模型,在它之前, Runway、Pika等已經掀起過一波AI視頻應用熱潮。但之所以引發如此巨大的震撼,在於其在視頻質量和時長方面實現難以置信的突破,首先是時長,Sora可生成長達一分鐘的視頻,而其它文生視頻模型僅能生成3至4秒的視頻。其次Sora可實現多角度“運鏡”,即在一段視頻中圍繞同一主體實現遠、中、近景、特寫等不同鏡頭的切換。而其它模型只能生成較為單一的鏡頭語言。還有對真實世界反應,Sora對於光影反射、運動方式、鏡頭移動等細節處理得十分優秀,極大地提升了真實感。

業界評論認為,Sora的推出標誌着AI研究的一個重要里程碑。憑藉其模擬和理解現實世界的能力,Sora為未來實現通用人工智能(AGI)奠定了基礎。

由於擔心Sora可能被濫用,OpenAI表示目前沒有計畫向公眾發布該模型,而是給予小部分研究人員有限的訪問權限,以理解模型的潛在危害。

自上周四發布以來,Sora的能力已經讓觀察家們感到震驚,儘管如此,與當今迅猛發展的AI領域所有事物一樣,Sora出現也引發了人們對潛在道德和社會影響的擔憂以及未來對影視、廣告、遊戲等行業帶來的衝擊。

評論指,當Sora將AI生成視頻能力提升到近乎逼真的程度時,也就意味着“眼見為實”的時代已不復存在。世界經濟論壇發布的《2024年全球風險報告》顯示,人工智能生成的錯誤信息和虛假信息高居2024年全球風險之首。尤其是今年是全球大選之年,佔全球GDP 60%的國家或地區將舉行選舉,包括英國、美國和印度等,人們對通過AI深度偽造干擾選舉的擔憂增加。

美國麥格理(Macquarie)公司人工智能和軟件研究負責人哈夫邁耶(Fred Havemeyer)說,“生成式AI的負面外部效應性將成為 2024 年辯論的關鍵話題,”“這是每個企業和個人今年都需要面對的重大問題”。

去年12月,歐盟就世界上第一個全面的人工智能法案文本達成一致,標誌着歐盟向立法監管人工智能邁出重要一步,但該法案要到最終批准兩年後才會生效。

OpenAI周四表示,在廣泛使用Sora之前,它正在採取重要的安全措施,包括與有關誤導信息、煽動仇恨和偏見等領域專家合作,對模型進行對抗性測試。同時也在開發協助檢測工具等,該公司全球事務副總裁 Anna Makanju 上周五在慕尼黑安全會議上講話重申了這一點,OpenAI 和其他 19 家全球科技公司在會上共和簽署了聯合聲明,承諾共同打擊干預選舉的AI深度偽造技術和錯誤信息。

Open AI表示,正在“以一種相當謹慎的方式”發布Sora,模型的訓練數據既包含公開可用的視頻,也包括了專為訓練目的而獲授權的版權視頻,但OpenAI技術報告沒有透露Sora訓練數據的具體數量和確切來源,公司在上周五沒有立即回應進一步置評的請求。值得指出的是,Sora 的發布是在一些作者和《紐約時報》對 OpenAI 及其商業合作夥伴 Microsoft 提起訴訟的背景下發布的,OpenAI被指使用受版權保護的寫作作品來訓練 ChatGPT。

轉載自《法廣》