Kosmos-1 席捲 AI 界!微軟衝向 AGI 新高峰
微軟 Kosmos-1 震撼問世!感知多模態、聽指令又擅學習,直指 AGI,未來語音功能將掀革命浪潮!

大型語言模型(LLM)已在處理廣泛的自然語言處理(NLP)任務中展現卓越能力。然而,要實現類似人類認知的人工通用智能(AGI),需進一步提升技術,多模態感知尤為重要。在新論文《語言並非一切所需:將感知與語言模型對齊》中,微軟研究團隊推出 Kosmos-1,一款多模態大型語言模型(MLLM),能感知多種模態、遵循指令並進行情境學習。Kosmos-1 在語言任務、感知-語言整合及視覺挑戰中表現出色。
研究人員指出,具備多模態感知的 LLM 可超越純文字獲取常識知識,推動機器人技術與文件智能等新興領域的應用。此方法還能將多個 API 整合成單一簡潔的圖形使用者介面。Kosmos-1 採用 MetaLM 訓練框架,以基於 Transformer 的 LLM 為核心,輔以感知模組。語言作為通用任務層,使 Kosmos-1 能有效處理自然語言指令與動作序列,將多樣任務預測統一為文字輸出。
Kosmos-1 根據先前情境自回歸生成文字,將非文字輸入(如圖像)嵌入其基於 Transformer 的因果語言模型。Transformer 解碼器作為所有模態的中央介面,使 Kosmos-1 自然具備情境學習與指令遵循能力,擅長語言與感知密集型任務。
在實證研究中,團隊以網頁規模的多模態語料庫訓練 Kosmos-1,並在多種語言與多模態任務以及 Raven IQ 測試中進行評估。Kosmos-1 展現卓越性能,凸顯其強大的多模態感知與非語言推理能力。(註:原文可能在此處嵌入圖像,或為 Kosmos-1 架構示意圖或 Raven IQ 測試的性能圖表,但公開摘要未提供具體描述。)
Kosmos-1 為 MLLM 帶來了令人期待的新能力和機遇。未來,研究人員計劃加入語音功能並擴大模型規模,將 Kosmos-1 定位為邁向 AGI 的重要里程碑。該論文《語言並非一切所需:將感知與語言模型對齊》已於 arXiv 發布。

相關新聞
March 14, 2025
阿里巴巴 R1-Omni 閃耀登場!結合 RLVR 強化多模態 AI
阿里巴巴 R1-Omni 閃耀登場!結合 RLVR 強化多模態 AI,文字圖像無縫處理,透明獎勵革新應用,引領未來智能新境界
其他
BlenderMCP:Claude AI 助你玩轉 3D 設計
March 19, 2025
阿里巴巴 R1-Omni 閃耀登場!結合 RLVR 強化多模態 AI
March 14, 2025
Gemini 橫空出世!DeepMind AI 霸主稱雄人類專家
March 14, 2025
Google DeepMind 推 Gemini Robotics 革新機器人
March 14, 2025
Windows 11 AI 記事本!總結功能大升級
March 14, 2025
MCP 或取代HTTP!AI 通訊新標準,效率提升未來
March 14, 2025
Intel 計畫 2025 年將製造外包給 TSMC、Nvidia 等公司。
March 14, 2025
2025 年網絡 99.9% 為 AI 服務而非人類 – Karpathy 震撼展望
March 14, 2025










