ChatGPT之后，下個AIGC殺手級應用已近在眼前

:0:0

大模型模式，正在新一波AIGC的浪潮里被再度驗證。
從AI畫畫的出圈，到現如今ChatGPT的火爆，面向大眾的爆款產品接口背后，無不是大模型技術的突破創新。
而當這種「大力出奇跡」的技術路徑價值愈發凸顯，行業內外也不禁好奇：
AI繪畫、ChatGPT版搜索之后，下一個大模型的爆發點會出現在何處？

遵循技術規律推測，可以預見的是，視訊領域的技術革命已近在眼前：
從技術的角度來說，在大語言模型迭代進化的同時，谷歌、Meta等大廠在視訊自動生成領域已有更深層的探索。
而從商業的視角來看，中信建投就在報告中指出，AIGC在文本、音頻、視訊、游戲等等行業中，成長空間巨大。
量子位智庫也預測，AI生成視訊將在5年后迎來較為廣泛的規模應用。

△圖源：量子位智庫
AIGC下一站：視訊生成不妨先展開看看相關領域的技術進展。
谷歌：Phenaki和Imagen Video
就在ChatGPT刷屏之際，谷歌AI生成的一段視訊突然爆火，一時分走不少討論度。
背后的AI模型名為 Phenaki。只需提供一段提示詞，這個文本轉視訊（Text-to-Video）模型分分鐘就能生成長達兩分鐘的視訊。
不僅時長遠超早期的文生視訊模型，Phenaki生成的視訊還頗具故事性。
比如給它這樣一段場景描述：
一只逼真的泰迪熊正在潛水；隨后它慢慢浮出水面；走上沙灘；這是鏡頭拉遠，泰迪熊行走在海灘邊篝火旁。
就能得到一個這樣的視訊片段：

除此之外，谷歌還推出過基于擴散模型的Imagen Video。其特點是分辨率高，同時可以理解不同的藝術風格和3D結構。

Meta：Make-A-Video
在「拿嘴做視訊」這方面，Meta也有所布局。
Meta的文生視訊模型名為 Make-A-Video，同樣是文本圖像生成模型的升級版，主要由三部分組成：
文本圖像生成模型P 時空卷積層和注意力層用于提高幀率的幀插值網絡和兩個用來提升畫質的超分模型
不僅給出一句「馬兒喝水」，Make-A-Video就能生成出一段「紀錄片」畫面來：

這個AI模型還具備將靜態圖像轉成視訊、根據前后兩張圖片生成一段視訊，以及基于一段原視訊生成新視訊的能力。

百度：VidPress
國內，百度也把文心大模型的能力，運用到了智能視訊合成平台VidPress中。
VidPress能夠實現圖文自動轉視訊，即把文字腳本、視訊內容搜索、素材處理、音視訊對齊，以及剪輯這5個步驟自動化。
其中涉及的語義分析、素材相關度打分等環節，就都是基于文心大模型訓練實現的。

從技術的發展可以看出，在語言大模型、圖像大模型之后，多模態大模型已經成為了新的趨勢。視訊就是其中具有代表性的一個應用領域。
而從商業化的角度來看，文化娛樂、教育、傳媒等諸多領域，本身就對基于AI的可視化內容有強烈需求。
根據中信建投對各類內容未來可AI制作比例的測算，在視訊成為信息主要表達載體的當下，無論是在游戲、短視訊、直播，還是影視等領域，AI視訊內容生成都將成為AIGC的主要關注方向。

并且在2022年，DALL·E、Imagen、Stable Diffusion等多個高品質文生圖大模型的「轟炸」之下，一個新的市場規律已經得到驗證：
當生成品質提高到專業水平時，原本AI生成內容的商業化瓶頸，如變現困難等，將得到突破。
哪些公司是潛力股？機會自然屬于有準備的人。
比如，Image Video的核心團隊就已經從谷歌出走創業。據VC爆料，首輪估值1億美元。

而除了前文提到的已有革命性技術儲備的科技巨頭外，還有兩類公司值得關注。
其一，是具備數據基礎和應用場景的公司。
在這一方面，行業中的大公司普遍更具優勢。比如國外的網飛、迪士尼。
以網飛為例，公開資料顯示，在2012年時，網飛就已擁有數十億條會員評價，每天能新增百萬級別的視訊播放信息，包括觀眾的觀看時長、播放設備等等。
事實上，基于如此龐大的獨家數據，網飛已經在產品中嘗試用AIGC替代標準內容制作。比如影片的縮略圖，就是網飛采用AI算法，從影片中抽取符合用戶觀影習慣和需求的畫面生成的。
就在今年2月初，網飛還發布了一支AIGC動畫短片《犬與少年》。其中動畫場景的繪制工作，都是由AI完成的。

同樣，國內短視訊行業兩大巨頭抖音和快手的動向，也值得關注。
目前，字節跳動的視訊編輯工具剪映，以及快手的云剪，都已上線圖文成片、文字轉視訊的功能。用戶只需輸入幾個關鍵詞或一段文字，AI就能自動搜集素材剪輯出一段視訊片段。
其二，就是在垂直細分賽道上具有技術儲備的公司。
比如國內的智能視覺技術企業影譜科技，成立之初就是以人工智能視覺技術產業化為主要目標，早在2018年就發布了基于生成式AI技術的AGC智能影像生產引擎，這也是國內較早提出的生成式AI的技術框架。
影譜科技的AGC通過MCVS技術（Moviebook Motion Capture from Video System）對現有視訊的關鍵幀進行抽取，理解、關聯及預測等處理，將視訊內容分割為像素及子像素維度的結構化數據，并自動完成標記，即形成了對視訊中各種內容的自動化理解和標注。接下來，利用3D虛擬重建等計算機圖像技術，通過視訊內容自動化生產引擎MAPE（Moviebook Auto-Production Engine）生成全新的視訊，該方案融合了人工智能多模態語義理解，并利用深度學習實現視訊自動化加工以及視訊的同步生成，創新了視訊影像生產方式。
這使得AGC可在極短時間內生成一段個性化視訊內容，亦可以對拍攝視訊進行重構，如自動錨定關鍵幀，根據幀內容生成原圖像中沒有的、無違和感的內容，再智能化生成一段AI視覺內容。
據公開數據顯示，影譜科技AI生成引擎生成一段60s視訊的總成本與傳統方式相比降低79.8%以上，而生產率最高可以提高百倍以上；檢索一段60s視訊內相似幀圖像或特定圖像，所需總成本與人工相比降低99.73%，而錯誤率降低10倍以上，目前主要應用于政府服務、企業、科教、泛娛樂、媒體、文旅等領域。
例如，在視訊采集和生產階段，可實現主體識別、跟隨拍攝、畫質修復、自動剪輯、視訊自動生成等功能；在分發階段實現智能審核、個性化推薦等；在用戶體驗方面，結合數字孿生技術綜合使用，實現數字內容、數字空間、數字人的高效生產及可視化互動等功能。
目前AGC在諸多行業的應用已十分廣泛，隨著與行業的數字化融合不斷加深，未來發揮的作用也將愈加明顯。
p.s. 前文提到的網飛AIGC短片，還有小冰公司的參與。
ChatGPT之火，正在加速AIGC走向成熟不得不說的是，盡管ChatGPT的火爆，讓大模型時代的AIGC獲得了空前關注，但AIGC產業，還只能說是一個「新生兒」。
根據Gartner發布的2022年新興技術成熟度曲線，生成式AI目前還處于「技術萌芽期」，預計距離生產成熟期還有5-10年的時間。