/ 最新消息

OpenAI 發布新語音系統 Whisper，英文辨識能力可接近人類水平

2022.09.27|

9 月 21 日，OpenAI 發布了一個名為「Whisper」的神經網路，聲稱其在英語語音辨識方面已接近人類水平的魯棒性和準確性。

Whisper是一個自動語音辨識（ASR）系統，研究團隊透過使用從網路上收集的68萬個小時多語音和多任務監督數據，來對其進行訓練。

訓練過程中研究團隊發現，使用如此龐大且多樣化的數據集可以提高對口音、背景噪音和技術語言的魯棒性。

此前有不同研究表明，雖然無監督預訓練可以顯著提高音頻編碼器的品質，但由於缺乏同等高品質的預訓練解碼器，以及特定於數據集中的微調協議，因此在一定程度上限制了模型的有效性和魯棒性；而在部分有監督的方式預訓練語音辨識系統中，其表現會比單一源訓練的模型呈現出更高的魯棒性。

對此，在Whisper中，OpenAI在新數據集比現有高品質數據集總和大幾倍的基礎上，將弱監督語音辨識的數量級擴展至68萬小時；同時，研究團隊還演示了在這種規模下，訓練模型在轉移現有數據集的零射擊表現，可消除任何特定於數據集微調的影響，以實現高品質結果。

▲ 方法概述。（Source：OpenAI）

在許多不同的語音處理任務中訓練一個序列到序列的轉換器模型，包括多語言語音辨識、語音翻譯、口頭語言辨識和語音活動檢測；所有任務都表示為要由解碼器預測的標記序列，允許單一模型取代傳統語音處理管道的不同階段；多任務訓練格式使用一組特殊的標記，做為任務指定者或分類目標。

Whisper架構採用一種簡單的端到端方法，透過編碼器-解碼器Transformer來實現：匯入音頻被分成30秒的塊，轉換成log-Mel頻譜圖後傳遞到編碼器。解碼器可預測相應的文本標題，並與特殊標記混合，由這些標記指導單個模型執行諸如語言辨識、短語級時間戳、多語言語音轉錄和英語語音翻譯等任務。

▲ Whisper架構。（Source：OpenAI）

值得一提的是，由於Whisper是在一個龐大且多樣的數據集上進行，沒有針對任何特定的數據集進行微調，因此它不會擊敗專門研究LibriSpeech性能的模型。

此外，研究團隊還發現，當在許多不同的數據集上測量Whisper的零樣本性能時，Whisper相比其他模型表現更加穩健，錯誤率降低了50%。

除了足夠大的數據集規模外，Whisper還支援多種語言的轉錄，以及將這些語言翻譯成英語。

當前在68萬小時音頻中，共11.7萬個小時覆蓋了96中其他語言，還包括12.5萬個小時的轉錄和翻譯數據，即大約有三分之一是非英語的。

Whisper會交替執行以原始語言轉錄或翻譯成英語的任務，對此研究團隊發現，這種方法在學習語音到文本的翻譯方面特別有效，並且優於CoVoST2到英語翻譯零樣本的監督SOTA。

目前，Whisper已開源，可用於對語音辨識方面的進一步研究。

OpenAI創始人Ilya Sutskever對此表示，「終於有一個能理解我說話的可靠的語音辨識系統。」

特斯拉人工智慧和自動駕駛部門前負責人Andrej Karpathy也轉發了這一消息，稱「OpenAI正處於最好的狀態中」。

但對使用Whisper上，有不少用戶也還存在疑慮。

網友Vincent Lordier提出，「此前在GTP-3和Dalle-2中出現對相關言論禁止行為，是否在使用Whisper時也會有，是否會出現Whisper編輯／刪除用戶語音的情況？」

那麼大家怎麼看？

（本文由雷鋒網授權轉載；首圖來源：shutterstock）