/ 最新消息

人類忙著內耗競爭時，AI 已完成近年最大進化

2022.11.01|

AI（人工智慧）不太讓人興奮有段時間了，人們雖躲不開，但也發覺無論 AI 技術進步或商用似乎都遇到瓶頸。已經很多年沒有像 AlphaGo 那時驚豔，業界也沒有像語音助理普及時的機會，甚至許多投資人沒什麼新鮮故事可用時，才不情願轉身回頭看看 AI 界。

不過就在全人類忙著競爭的2022年，AI又經歷近年來最大進化。

突然翻紅

10月18日因推出Stable Diffusion文字─圖像AI產生模型大紅的人工智慧公司Stability.Ai，宣布完成1.01億美元種子輪融資，估值達10億美元，成為獨角獸新創，距成立僅兩年。即便以科技網路產業發展標準看，Stability.Ai成長速度也很驚人，是今年全球AI產業爆發式增長的縮影，旗下Stable Diffusion開源模型風靡全球不到兩個月。

疾風驟雨的進化堪稱革命，尤其全球經濟轉弱的背景下，與所有革命一樣，AI革命也不是一夕間成功。

人們一直有個夢想，即用AI技術拓展人類智慧、知識和創造力的邊界，但人腦複雜結構的學習能力遠超過構建AI的能力，於是AI只能透過各種特定深度學習模型單點突破特定領域，如AlphaGo學圍棋，又如天文大數據幫助尋找脈衝星。

AIGC即基於AI能力的內容創作（包括文字、圖片和影片），也是重要類別，今年以前囿於核心技術局限性，這領域一直不溫不火，因AI並沒有點石成金法術，不具人類平空創造的能力。AI深度學習訓練並不是有自我意識的學習，而是收集大量樣本讓AI總結規律，根據人類指令再生產內容，同時受核心演算法、硬體條件、資料庫樣本等多方限制。

▲ 2018年神經網路產生的作品，研究員Robbie Barrat用大量裸體繪畫（主要是女性）訓練而成。（Source：Robbie Barrat）

今年以前AIGC領域使用最多的演算法模型名為對抗生成網路GAN（Generative adversarial networks），顧名思義就是讓AI兩個程式互比，產生最接近人類心中的正確形象。但這演算法有個嚴重問題，為程式比較標準是現成樣本，產生內容是無限接近模仿已有內容，而模仿，代表AI無法自己創作。

（Source：Google Developers）

GAN的缺點最終被Diffusion擴散化模型克服，就是今年陸續湧現的Stable Diffusion開源模型等眾多AIGC圖片產生模型的技術核心。

Diffusion擴散化模型原理類似幫照片去雜訊，學習過程理解有意義的圖片如何產生，因此Diffusion模型產生圖片比GAN模型精確度更高，更符合人類視覺和審美邏輯，同時樣本數量和深度學習時長累積，Diffusion模型展現出對藝術表達風格更佳的模仿能力。

（Source：Towards Data Science）

今年初引起廣泛關注的Disco Diffusion到DALL‧E 2、Midjourney等都是基於Diffusion模型，拿到融資的Stable Diffusion最受歡迎。Stability.Ai擁護科技社群氛圍和認同技術中立原則，主動開放原始碼，不僅方便人們在終端運算（普通消費級顯卡就能滿足Stable Diffusion硬體要求），還有魔法般的體驗：打開網址，輸入想要圖片的關鍵字，等幾分鐘，模型就會產生完成度非常高的圖像，讓普通人使用最尖端AI技術的門檻降到最低，上線後僅官方平台DreamStudio製作的生成圖片就超過1.7兆張。

AIGC沉寂許久的革命火種，瞬間燎原。

絢爛的藍海

以Stability.Ai為代表的AIGC圖片產生模型如此短時間發展就極為成熟，預告從傳統設計繪圖、插畫、遊戲視覺、電子商務等領域到元宇宙和虛擬實境，都有巨大發展潛力。

▲ 輸入「AI wins」後DreamStudio基於Stable Diffusion產生的圖像。

想像一下，未來VR / AR虛擬世界，腦海想到的畫面可藉AI幫助即時渲染，將對娛樂和取得資訊的方式產生多大顛覆？

但這不是市場經濟大環境極低迷之際投贊成票的全部原因，潛在商業性固然吸引人，但更值得投資的是AI技術。革命尚未完結，下一章已向我們走來，就是文字產生影片。從本質講，影片就是靜態圖片連續播放，隨著AI圖片產生技術日益成熟，許多人開始專注產生影片，9月Meta和Google先後公佈AIGC最前線領域的新成果。

Meta模型名為Make-A-Video，學習大量文本─圖像組合樣本和無標記影片理解真實世界物體運動邏輯，Make-A-Video能初步在構建圖像的基礎上讓圖動起來，同時有理解3D結構的能力。

（Source：論文）

imagen video模型則透過稱為聯級擴散系列模型產生影片。先以基礎擴散模型產生解析度較低影片，然後再用一系列時間、空間超解析度模型提升解析度和幀數。

橫向比較，imagen解析度1,280×768高於Make-A-Video，長度也略長。

（Source：論文）

突破還不只這些，另一個Phenaki AI影片產生模型（也來自Google團隊）公布根據文本產生可變時長影片的技術，也就是從文本提煉故事情節並轉為影片的能力。Phenaki示範影片基於幾百個單詞組成一連串有前後邏輯的指令，產生一支2分多鐘影片，充滿鏡頭感、豐富情節和轉場的故事雛形，假以時日勢必對影視相關工作如網路平台、電視電影等產生不小衝擊。

產生影片模型尚在起步階段，運動細節、畫面精細度、不同物體和人的互動等還顯稚嫩，從解析度到畫質也有濃濃人工智慧痕跡，然而回想AI圖片產生模型同樣經歷過從群嘲到逆襲，未嘗不是AIGC革命下一個高潮即將來臨的徵兆。

劇變下的爭議

劇烈變化總是伴隨爭議，以Stable Diffusion為首的AIGC革命「圖像階段」也如此，筆者試著歸納成幾個問題並簡單回答。

1. AI產生內容的版權問題該如何界定？

中國著作權法規定只有自然人或組織可認定為作者，因此AI產生內容沒有著作權實體。如果沒有更多協定，AI產生內容可任意使用，商用也可以。Midjourney、DALL‧E等都明確表示用戶擁有產生作品的所有權。

▲ stability.ai回答版權問題。

很多AI產生技術深度學習訓練的資料庫可能含版權內容，但導致使用者有侵權可能性非常低，因產生內容充滿高度隨機和不確定性，即使有版權爭議，舉證也極度困難。

2. AI產生內容是否有藝術性？如果有，該如何評定？

AI產生內容是否有藝術性半年前還是個無聊問題，但〈Théâtre d’Opéra Spatial〉（太空歌劇院）得獎後，人們開始談論。總體來說，AI產生內容不是創作，受模型演算法和資料庫樣本容量影響，這也是許多人聲稱AI產生內容「沒有靈魂」的原因。

然而僅把AI產生技術看成純工具也不公平，因它不僅會模仿，且演算法和樣本一起提供人類可能想不到的視角。現有AI產生圖像技術已讓人們進入圖像創作的門檻變得極低，藝術性欣賞或許該從更細角度入手，如NFT之於傳統藝術品，價值需經市場檢驗，藝術品市場也處於理解和接受的初階。

3. AIGC革命的「圖像階段」對繪圖工作者和藝術創作者來說代表什麼？

AI產生技術「平民化」，將來中低階繪圖和市場會被AI取代，大批腰部以下繪畫工作者、插畫師、設計師等都會失業。若AI產生圖像越來越豐富逼真，算根本上解構商業圖庫賴以維生的經營模式──如果電腦可產生圖片，誰要花錢買圖庫？

▲ Gettyimages的AI產生圖像使用聲明。

但AI產生技術同樣拓展人們對繪畫工具的理解。對藝術創作者來說，AI產生技術有利基於自身理念（而不是技術）創造更多更具創造性的作品。未來將是創作者創造力的比拚，因AI可「消除外行人的表達障礙」（Björn Ommer 所說，他的團隊開發了Stable Diffusion基礎演算法）。

4. AI產生內容如何監管，防止假訊息傳播？

秉持技術中立態度的研究者如Stability.Ai會盡量減少控制干預，開放和充分討論的社群將逐步形成資訊傳播的監督機制。「消費者需為如何使用技術負責，包括道德和法律性。」CEO Emad Mostaque受訪時說。

儘管深度學習資料庫多經嚴格篩選，篩掉色情、暴力、恐怖等內容，但刻板印象、種族歧視、性別歧視等問題無法根除，更重要的是，如何界定偏見對倫理學仍是頗具爭議的問題，正因如此，Google決定排除風險前延後發表imagen video模型，許多已發表模型選擇為產生作品加上不可去除的浮水印避免爭議。

AIGC革命如火如荼進行，不是未來式，而是現在進行式。我們都身處其中。現在就是未來。

（本文由品玩授權轉載；首圖來源：Stability.Ai）

原始文章： https://technews.tw/2022/10/27/future-of-aigc/

最強自拍工具誕生！AI 幫你合成風格自拍照秒殺大批專業相機與軟體

靈魂之窗守護者，美科學家研發 24 小時追蹤眼壓的智慧隱形眼鏡