微軟多模態ChatGPT來了？16億參數搞定看圖答題、智商測驗等任務

:0:0

從大型語言模型（LLM）到多模態大型語言模型（MLLM），微軟又邁出了重要一步。
在 NLP 領域，大型語言模型（LLM）已經成功地在各種自然語言任務中充當通用接口。只要我們能夠將輸入和輸出轉換為文本，就能使得基于 LLM 的接口適應一個任務。舉例而言，摘要任務輸入文檔，輸出摘要信息。所以，我們能夠將輸入文檔饋入摘要型語言模型，并生成摘要。
盡管 LLM 在 NLP 任務中取得了成功的應用，但研究人員仍努力將其原生地用于圖像和音頻等多模態數據。作為智能的基本組成部分，多模態感知是實現通用人工智能的必要條件，無論是對于知識獲取還是與現實世界打交道。更重要的是，解鎖多模態輸入能夠極大地拓展語言模型在更多高價值領域的應用，比如多模態機器人、文檔智能和機器人技術。
因此，微軟團隊在論文《Language Is Not All You Need： Aligning Perception with Language Models》中介紹了一個多模態大型語言模型（MLLM）——KOSMOS-1，它可以感知一般模態、遵循指令（即零樣本學習）以及在上下文中學習（即少樣本學習）。研究目標是使感知與 LLM 保持一致，如此一來模型能夠看到（see）和說話（talk）。研究者按照 METALM（參見論文《Language models are general-purpose interfaces》）的方式從頭開始訓練 KOSMOS-1。

論文地址：https：//arxiv.org/pdf/2302.14045.pdf
項目地址：https：//github.com/microsoft/unilm
如下圖 1 所示，研究者將一個基于 Transformer 的語言模型作為通用接口，并將其與感知模塊對接。他們在網頁規模的多模態語料庫上訓練模型，語料庫包括了文本數據、任意交錯的圖像和文本、以及圖像字幕對。此外，研究者還通過傳輸純語言數據來校準跨模態的指令遵循能力。
最終，KOSMOS-1 模型原生支持零樣本和少樣本學習設置下的語言、感知語言與視覺任務，具體如下表 1 所示。

研究者在下圖 2 和圖 3 中展示了一些生成示例。除了各種自然語言任務，KOSMOS-1 模型能夠原生處理廣泛的感知密集型任務，如視覺對話、視覺解釋、視覺問答、圖像字幕、簡單的數學方程式、OCR 和帶描述的零樣本圖像分類。他們還根據瑞文推理測驗（Raven‘s Progressive Matrices， RPM）建立了一個 IQ 測試基準，用來評估 MLLM 的非語言推理能力。

‍這些示例表明，多模態感知的原生支持為將 LLM 應用于新任務提供了新的機遇。此外與 LLM 相比，MLLM 實現了更好的常識推理性能，表明了跨模態遷移有助于知識獲取。
由于 KOSMOS-1 模型的參數量為 16 億，因此有網友表示有望在自己的電腦上運行這個多模態大模型。

KOSMOS-1：一個多模態大型語言模型
如圖 1 所示，KOSMOS-1 是一個多模態語言模型，它既可以感知一般的模態、遵循指令、還能在上下文中學習并生成輸出。具體來說，KOSMOS-1 的主干是一個基于 Transformer 的因果語言模型。除了文本之外，其他模態也能被嵌入并輸入到該模型中，如下圖中，除了語言還有視覺、語音等的嵌入。Transformer 解碼器用作多模態輸入的通用接口。一旦模型訓練完成，KOSMOS-1 在零樣本和少樣本設置中也能對語言任務和多模態任務進行評估。

Transformer 解碼器以統一的方式感知模態，輸入信息會被 flatten 為帶有特殊 token 的序列。例如
表示序列開始、表示序列結束。特殊 token
和表示編碼圖像嵌入的開始和結束。

嵌入模塊將文本 token 和其他輸入模態編碼成向量表示，對于輸入 token，該研究使用查找表將其映射到嵌入中。對于連續信號模態（例如，圖像和音頻），也可以將輸入表示為離散編碼。
之后，獲得的輸入序列嵌入會被饋送到基于 Transformer 的解碼器。然后因果模型以一種自回歸的方式處理序列，從而產生下一個 token。總而言之，MLLM 框架可以靈活地處理各種數據類型，只要將輸入表示為向量即可。
模型訓練
首先是訓練數據集。數據集包括文本語料庫、圖像 - 字幕對、圖像和文本交叉數據集。具體而言，文本語料庫包括 The Pile 、Common Crawl （CC）；圖像 - 字幕對包括 English LAION-2B、LAION-400M、COYO-700M 以及 Conceptual Captions；圖像和文本交叉多模態數據集來自 Common Crawl snapshot。
數據集有了，然后是訓練設置。MLLM 組件包含 24 層、隱藏維度是 2048、8192 個 FFN 和 32 個注意力頭、參數量為 1.3B。為了使模型更好的收斂，圖像表示是從具有 1024 個特征維度的預訓練 CLIP ViT-L/14 模型獲得的。圖像在訓練過程中被預處理為 224×224 分辨率，此外，訓練期間除了最后一層，所有的 CLIP 模型參數被凍結。KOSMOS-1 的參數總數約為 1.6B。

實驗結果
該研究進行了一系列豐富的實驗來評價 KOSMOS-1 ：語言任務（語言理解、語言生成、 OCR-free 文本分類）；跨模態遷移（常識推理）；非語言推理（ IQ 測試）；感知 - 語言任務（圖像字幕、視覺問答、網頁問答）；視覺任務（零樣本圖像分類、帶有描述的零樣本圖像分類）。
圖像字幕。下表給出了不同模型在 COCO 和 Flickr30k 上的零樣本性能。相比其他模型，KOSMOS-1 均取得了顯著效果，甚至在參數量遠小于 Flamingo 的基礎上，性能也不錯。