March 13, 2025In 繪圖By 金髮扮工少年

Kosmos-1 席捲 AI 界!微軟衝向 AGI 新高峰


微軟 Kosmos-1 震撼問世!感知多模態、聽指令又擅學習,直指 AGI,未來語音功能將掀革命浪潮!

大型語言模型(LLM)已在處理廣泛的自然語言處理(NLP)任務中展現卓越能力。然而,要實現類似人類認知的人工通用智能(AGI),需進一步提升技術,多模態感知尤為重要。在新論文《語言並非一切所需:將感知與語言模型對齊》中,微軟研究團隊推出 Kosmos-1,一款多模態大型語言模型(MLLM),能感知多種模態、遵循指令並進行情境學習。Kosmos-1 在語言任務、感知-語言整合及視覺挑戰中表現出色。

 研究人員指出,具備多模態感知的 LLM 可超越純文字獲取常識知識,推動機器人技術與文件智能等新興領域的應用。此方法還能將多個 API 整合成單一簡潔的圖形使用者介面。Kosmos-1 採用 MetaLM 訓練框架,以基於 Transformer 的 LLM 為核心,輔以感知模組。語言作為通用任務層,使 Kosmos-1 能有效處理自然語言指令與動作序列,將多樣任務預測統一為文字輸出。

Kosmos-1 根據先前情境自回歸生成文字,將非文字輸入(如圖像)嵌入其基於 Transformer 的因果語言模型。Transformer 解碼器作為所有模態的中央介面,使 Kosmos-1 自然具備情境學習與指令遵循能力,擅長語言與感知密集型任務。

在實證研究中,團隊以網頁規模的多模態語料庫訓練 Kosmos-1,並在多種語言與多模態任務以及 Raven IQ 測試中進行評估。Kosmos-1 展現卓越性能,凸顯其強大的多模態感知與非語言推理能力。(註:原文可能在此處嵌入圖像,或為 Kosmos-1 架構示意圖或 Raven IQ 測試的性能圖表,但公開摘要未提供具體描述。)

Kosmos-1 為 MLLM 帶來了令人期待的新能力和機遇。未來,研究人員計劃加入語音功能並擴大模型規模,將 Kosmos-1 定位為邁向 AGI 的重要里程碑。該論文《語言並非一切所需:將感知與語言模型對齊》已於 arXiv 發布。

來源: Synced



相關新聞

BlenderMCP:Claude AI 助你玩轉 3D 設計

BlenderMCP 利用自然語言簡化 3D 建模過程,將 Blender 與 Claude AI 連接。

阿里巴巴 R1-Omni 閃耀登場!結合 RLVR 強化多模態 AI

阿里巴巴 R1-Omni 閃耀登場!結合 RLVR 強化多模態 AI,文字圖像無縫處理,透明獎勵革新應用,引領未來智能新境界