ChatGPT後 OpenAI推出Sora文本轉視頻跨時代模型

世界最領先的人工智能公司、位於美國加州的OpenAI公司2月15日發布Sora文本轉視頻模型，能夠根據用戶的提示詞生成長達一分鐘的視頻，效果足以亂真，和一年前該公司推出ChatGPT引發的全球震撼一樣，Sora的橫空出世再次引發一片驚呼興奮，業界讚揚稱AI技術畫時代的里程碑。

Sora名稱源於日文的“空”，即天空，以表示其無限的創造潛力，其背後使用的是生成式 AI技術，可根據用戶文本提示可生成長達 60 秒的視頻。該模型還可以從現有的靜止圖像生成視頻。而生成式 AI 是 AI 的一個分支，使用AI 來創作新內容，例如文本、圖片、音樂、音頻和視頻。已有的例子有如聊天機器人 OpenAI 的 ChatGPT，以及圖像生成器DALL-E等。讓 AI 系統生成視頻更新、更具挑戰性，但依賴的是一些相同的技術。

OpenAI周四向公眾展示了由Sora生成的多個高清視頻，具有電影質感的視頻對人物、動物及物品的特寫纖毫畢現，背景豐富、畫面生動流暢，令人難以置信。儘管如此， OpenAI 指出仍Sora仍然存在一些弱點，包括一些空間和因果元素問題，如OpenAI在其網站上補充所說的，可能出現“一個人咬一口餅乾，但之後，餅乾可能沒有咬痕”。

實際上，OpenAI的Sora並不是第一個展示文本生成視頻技術的模型，在它之前， Runway、Pika等已經掀起過一波AI視頻應用熱潮。但之所以引發如此巨大的震撼，在於其在視頻質量和時長方面實現難以置信的突破，首先是時長，Sora可生成長達一分鐘的視頻，而其它文生視頻模型僅能生成3至4秒的視頻。其次Sora可實現多角度“運鏡”，即在一段視頻中圍繞同一主體實現遠、中、近景、特寫等不同鏡頭的切換。而其它模型只能生成較為單一的鏡頭語言。還有對真實世界反應，Sora對於光影反射、運動方式、鏡頭移動等細節處理得十分優秀，極大地提升了真實感。

業界評論認為，Sora的推出標誌着AI研究的一個重要里程碑。憑藉其模擬和理解現實世界的能力，Sora為未來實現通用人工智能（AGI）奠定了基礎。

由於擔心Sora可能被濫用，OpenAI表示目前沒有計畫向公眾發布該模型，而是給予小部分研究人員有限的訪問權限，以理解模型的潛在危害。

自上周四發布以來，Sora的能力已經讓觀察家們感到震驚，儘管如此，與當今迅猛發展的AI領域所有事物一樣，Sora出現也引發了人們對潛在道德和社會影響的擔憂以及未來對影視、廣告、遊戲等行業帶來的衝擊。

評論指，當Sora將AI生成視頻能力提升到近乎逼真的程度時，也就意味着“眼見為實”的時代已不復存在。世界經濟論壇發布的《2024年全球風險報告》顯示，人工智能生成的錯誤信息和虛假信息高居2024年全球風險之首。尤其是今年是全球大選之年，佔全球GDP 60%的國家或地區將舉行選舉，包括英國、美國和印度等，人們對通過AI深度偽造干擾選舉的擔憂增加。

美國麥格理（Macquarie）公司人工智能和軟件研究負責人哈夫邁耶（Fred Havemeyer）說，“生成式AI的負面外部效應性將成為 2024 年辯論的關鍵話題，”“這是每個企業和個人今年都需要面對的重大問題”。

去年12月，歐盟就世界上第一個全面的人工智能法案文本達成一致，標誌着歐盟向立法監管人工智能邁出重要一步，但該法案要到最終批准兩年後才會生效。

OpenAI周四表示，在廣泛使用Sora之前，它正在採取重要的安全措施，包括與有關誤導信息、煽動仇恨和偏見等領域專家合作，對模型進行對抗性測試。同時也在開發協助檢測工具等，該公司全球事務副總裁 Anna Makanju 上周五在慕尼黑安全會議上講話重申了這一點，OpenAI 和其他 19 家全球科技公司在會上共和簽署了聯合聲明，承諾共同打擊干預選舉的AI深度偽造技術和錯誤信息。

Open AI表示，正在“以一種相當謹慎的方式”發布Sora，模型的訓練數據既包含公開可用的視頻，也包括了專為訓練目的而獲授權的版權視頻，但OpenAI技術報告沒有透露Sora訓練數據的具體數量和確切來源，公司在上周五沒有立即回應進一步置評的請求。值得指出的是，Sora 的發布是在一些作者和《紐約時報》對 OpenAI 及其商業合作夥伴 Microsoft 提起訴訟的背景下發布的，OpenAI被指使用受版權保護的寫作作品來訓練 ChatGPT。

轉載自《法廣》