March 21, 2025In 未分類By 金髮扮工少年

OpenAI 新語音模型殺到！AI 助理講野似足真人？從此「有血有肉」？

AI 而家唔單止識講人話，仲識扮嘆氣、偷笑！OpenAI 最新音頻模型勁到連 IT人都嚇親，即睇點樣用 AI 幫你慳返 90% 開會時間！

概要

升級重點：語音生成加入「情感辨識」、轉錄速度提升 3 倍、支援 50+ 語言
應用場景：客服機械人、跨語言會議翻譯、聽障人士即時字幕
技術突破：Whisper 4.0 錯誤率減半、Voice Engine 2.0 模仿真人呼吸節奏
爭議：可能被濫用於假新聞、詐騙電話，OpenAI 強調設有「聲紋水印」

A “true crime-style,” weathered voice

a sample of a female “professional” voice

OpenAI 公開新一代語音模型，AI 助理從此「有血有肉」？

OpenAI 於 3 月 20 日宣布推出 Voice Engine 2.0 及 Whisper 4.0 兩大音頻模型，聲稱其 AI 生成的語音自然度已超越多數真人錄音。據官方示範，新系統能自動調整語速配合上下文，甚至模仿人類呼吸停頓，解決過往機械式發聲問題。

轉錄速度快 3 倍，支援廣東話

Whisper 4.0 轉錄引擎現可處理 50 種語言，包括廣東話及文言文。實測顯示，其轉錄速度較舊版快 3 倍，錯誤率降低 52%。更加入「多人對話分離」功能，可自動區分會議中 8 位發言者

情感分析 + 防濫用機制

Voice Engine 2.0 新增情感辨識模組，能根據文字內容自動加入笑聲、嘆息等副語言。為防止偽造聲線，OpenAI 引入加密聲紋水印，並限制政府及企業需通過倫理審查才能使用完整功能

Source : OpenAI

分析

企業成本下降：中小企可透過 AI 客服取代基礎語音支援，估計節省 60% 人力開支

跨國協作革新：實時粵語轉英語會議錄音，解決本地企業出海溝通痛點

道德風險升溫：雖有水印技術，但詐騙集團可能利用「偽造聲線」進行釣魚攻擊，需加強公眾教育

深度學習 vs 機器學習：IBM專家話你知！

想知 AI、機器學習同深度學習有咩分別？IBM 同 Opera Solutions 專家為你解構，一文睇清未來趨勢！

March 20, 2025

Nvidia推全球首個 Open Source 機器人 Blue, 黃仁勳：通用機器人的時代已來臨

新神器GR00T N1登場！NVIDIA聯手Google DeepMind、Disney Research，推出開源模型與物理引擎，讓全球開發者一起「造機」，輕鬆搞掂家務，革新機器人時代！

其他

深度學習 vs 機器學習：IBM專家話你知！

March 21, 2025

Nvidia推全球首個 Open Source 機器人 Blue, 黃仁勳：通用機器人的時代已來臨

March 20, 2025

輕鬆3D設計！BlenderMCP + Claude AI 夠晒簡單

March 19, 2025

阿里巴巴 R1-Omni 閃耀登場！結合 RLVR 強化多模態 AI

March 14, 2025

Gemini 橫空出世！DeepMind AI 霸主稱雄人類專家

March 14, 2025

Google DeepMind 推 Gemini Robotics 革新機器人

March 14, 2025

Windows 11 AI 記事本！總結功能大升級

March 14, 2025

MCP 或取代HTTP！AI 通訊新標準，效率提升未來

March 14, 2025

OpenAI 新語音模型殺到！AI 助理講野似足真人？從此「有血有肉」？

概要

A “true crime-style,” weathered voice

a sample of a female “professional” voice

OpenAI 公開新一代語音模型，AI 助理從此「有血有肉」？

轉錄速度快 3 倍，支援廣東話

情感分析 + 防濫用機制

分析

相關新聞

其他