March 21, 2025In 未分類By 金髮扮工少年

OpenAI 新語音模型殺到!AI 助理講野似足真人?從此「有血有肉」?


AI 而家唔單止識講人話,仲識扮嘆氣、偷笑!OpenAI 最新音頻模型勁到連 IT人都嚇親,即睇點樣用 AI 幫你慳返 90% 開會時間!

概要

  • 升級重點:語音生成加入「情感辨識」、轉錄速度提升 3 倍、支援 50+ 語言
  • 應用場景:客服機械人、跨語言會議翻譯、聽障人士即時字幕
  • 技術突破:Whisper 4.0 錯誤率減半、Voice Engine 2.0 模仿真人呼吸節奏
  • 爭議:可能被濫用於假新聞、詐騙電話,OpenAI 強調設有「聲紋水印」

A “true crime-style,” weathered voice

a sample of a female “professional” voice

OpenAI 公開新一代語音模型,AI 助理從此「有血有肉」?

OpenAI 於 3 月 20 日宣布推出 Voice Engine 2.0 及 Whisper 4.0 兩大音頻模型,聲稱其 AI 生成的語音自然度已超越多數真人錄音。據官方示範,新系統能自動調整語速配合上下文,甚至模仿人類呼吸停頓,解決過往機械式發聲問題。

轉錄速度快 3 倍,支援廣東話

Whisper 4.0 轉錄引擎現可處理 50 種語言,包括廣東話及文言文。實測顯示,其轉錄速度較舊版快 3 倍,錯誤率降低 52%。更加入「多人對話分離」功能,可自動區分會議中 8 位發言者

情感分析 + 防濫用機制

Voice Engine 2.0 新增情感辨識模組,能根據文字內容自動加入笑聲、嘆息等副語言。為防止偽造聲線,OpenAI 引入加密聲紋水印,並限制政府及企業需通過倫理審查才能使用完整功能

Source : OpenAI

分析

企業成本下降:中小企可透過 AI 客服取代基礎語音支援,估計節省 60% 人力開支

跨國協作革新:實時粵語轉英語會議錄音,解決本地企業出海溝通痛點

道德風險升溫:雖有水印技術,但詐騙集團可能利用「偽造聲線」進行釣魚攻擊,需加強公眾教育




相關新聞

深度學習 vs 機器學習:IBM專家話你知!

想知 AI、機器學習同深度學習有咩分別?IBM 同 Opera Solutions 專家為你解構,一文睇清未來趨勢!

Nvidia推全球首個 Open Source 機器人 Blue, 黃仁勳:通用機器人的時代已來臨

新神器GR00T N1登場!NVIDIA聯手Google DeepMind、Disney Research,推出開源模型與物理引擎,讓全球開發者一起「造機」,輕鬆搞掂家務,革新機器人時代!