OpenAI 新語音模型殺到!AI 助理講野似足真人?從此「有血有肉」?
AI 而家唔單止識講人話,仲識扮嘆氣、偷笑!OpenAI 最新音頻模型勁到連 IT人都嚇親,即睇點樣用 AI 幫你慳返 90% 開會時間!

概要
- 升級重點:語音生成加入「情感辨識」、轉錄速度提升 3 倍、支援 50+ 語言
- 應用場景:客服機械人、跨語言會議翻譯、聽障人士即時字幕
- 技術突破:Whisper 4.0 錯誤率減半、Voice Engine 2.0 模仿真人呼吸節奏
- 爭議:可能被濫用於假新聞、詐騙電話,OpenAI 強調設有「聲紋水印」
A “true crime-style,” weathered voice
a sample of a female “professional” voice
OpenAI 公開新一代語音模型,AI 助理從此「有血有肉」?
OpenAI 於 3 月 20 日宣布推出 Voice Engine 2.0 及 Whisper 4.0 兩大音頻模型,聲稱其 AI 生成的語音自然度已超越多數真人錄音。據官方示範,新系統能自動調整語速配合上下文,甚至模仿人類呼吸停頓,解決過往機械式發聲問題。
轉錄速度快 3 倍,支援廣東話
Whisper 4.0 轉錄引擎現可處理 50 種語言,包括廣東話及文言文。實測顯示,其轉錄速度較舊版快 3 倍,錯誤率降低 52%。更加入「多人對話分離」功能,可自動區分會議中 8 位發言者
情感分析 + 防濫用機制
Voice Engine 2.0 新增情感辨識模組,能根據文字內容自動加入笑聲、嘆息等副語言。為防止偽造聲線,OpenAI 引入加密聲紋水印,並限制政府及企業需通過倫理審查才能使用完整功能
Source : OpenAI
分析
企業成本下降:中小企可透過 AI 客服取代基礎語音支援,估計節省 60% 人力開支
跨國協作革新:實時粵語轉英語會議錄音,解決本地企業出海溝通痛點
道德風險升溫:雖有水印技術,但詐騙集團可能利用「偽造聲線」進行釣魚攻擊,需加強公眾教育

相關新聞
March 20, 2025
Nvidia推全球首個 Open Source 機器人 Blue, 黃仁勳:通用機器人的時代已來臨
新神器GR00T N1登場!NVIDIA聯手Google DeepMind、Disney Research,推出開源模型與物理引擎,讓全球開發者一起「造機」,輕鬆搞掂家務,革新機器人時代!
其他
深度學習 vs 機器學習:IBM專家話你知!
March 21, 2025
Nvidia推全球首個 Open Source 機器人 Blue, 黃仁勳:通用機器人的時代已來臨
March 20, 2025
輕鬆3D設計!BlenderMCP + Claude AI 夠晒簡單
March 19, 2025
阿里巴巴 R1-Omni 閃耀登場!結合 RLVR 強化多模態 AI
March 14, 2025
Gemini 橫空出世!DeepMind AI 霸主稱雄人類專家
March 14, 2025
Google DeepMind 推 Gemini Robotics 革新機器人
March 14, 2025
Windows 11 AI 記事本!總結功能大升級
March 14, 2025
MCP 或取代HTTP!AI 通訊新標準,效率提升未來
March 14, 2025










