正在閱讀:

擊敗OpenAI:谷歌公布20億參數(shù)通用語音模型,支持100+語種檢測翻譯

掃一掃下載界面新聞APP

擊敗OpenAI:谷歌公布20億參數(shù)通用語音模型,支持100+語種檢測翻譯

根據(jù)谷歌博客,與OpenAI的大型通用語音模型Whisper相比,USM的數(shù)據(jù)訓練時長更短,錯誤率更低。

攝影:界面新聞 匡達

編譯 | 吳菲凝

編輯 | 李水青

根據(jù)谷歌官網(wǎng),谷歌的通用語音模型USM目前已實現(xiàn)升級,支持100多個語種內(nèi)容的自動識別檢測。

去年11月,谷歌曾計劃創(chuàng)建一個支持1000個語種的AI模型USM。谷歌將其描述為“最先進的通用語音模型”,擁有20億個參數(shù),經(jīng)過涵蓋1200萬小時的語音、280億個句子和300多個語種數(shù)據(jù)集的預訓練。

USM的強大效果目前已在Youtube的字幕生成中展現(xiàn)出來,可自動翻譯和檢測如英語、漢語等主流語種,還能識別出阿薩姆語這種小眾語種,可以說“精通方言”。

根據(jù)谷歌博客,與OpenAI的大型通用語音模型Whisper相比,USM的數(shù)據(jù)訓練時長更短,錯誤率更低。

01.可自動檢測翻譯100+語種USM面臨兩大挑戰(zhàn)

當微軟和谷歌還在為誰家的AI聊天機器人更智能而爭論不休時,我們需要清楚,語音模型的用途遠不止于此。

外媒The Verge的記者稱,除了相傳將在今年的I/O開發(fā)者大會中展示的20多款AI驅動產(chǎn)品之外,谷歌目前還在朝著更高目標邁進——構建一個支持1000種語種的機器學習模型。

在周一發(fā)布的更新中,谷歌分享了更多有關USM的信息,谷歌稱,這是構建支持1000種語言的通用語音模型的“關鍵第一步”。

USM已被YouTube用于生成字幕,它還支持自動語音識別(ASR),可自動檢測和翻譯語言,不僅包括普通話、英語等廣泛使用的語言,還包括阿姆哈拉語、宿務語、阿薩姆語等冷門語言。

目前,谷歌稱USM可支持檢測100多個語種,并將作為構建更大的系統(tǒng)的“基礎”。不過,這項技術似乎還有些遙遠,谷歌在I/O開發(fā)者大會期間對阿拉伯語的錯誤表述就已證明。

谷歌研究院科學家張宇(Yu Zhang)和軟件工程師詹姆斯·秦(James Qin)在谷歌博客上發(fā)文稱,為了實現(xiàn)USM這個雄心勃勃的目標,他們目前需要解決ASR面臨的兩個重大挑戰(zhàn)。

一是傳統(tǒng)的學習方法的缺乏可擴展性。語音技術擴展到多語種的一個基本挑戰(zhàn)是需要足夠的數(shù)據(jù)來訓練高質量的模型,使用傳統(tǒng)方法時,需要手動將音頻數(shù)據(jù)進行標記,既耗時又價格高昂,對于那些小眾冷門的語種而言,也更難找到預先存在的來源收集。因此,研究院后續(xù)準備將傳統(tǒng)學習方法轉變?yōu)樽晕冶O(jiān)督學習,利用純音頻來收集數(shù)據(jù)。

二是在擴大語言覆蓋范圍和質量的同時,模型必須以計算效率更高的方法來改進。這就要求學習算法更加靈活、高效、泛化。這些算法需要使用來源廣泛的數(shù)據(jù),并在不用完全訓練的情況下更新模型,再推廣到新的語言中。

02.三個步驟降低識別錯誤率擊敗OpenAI

據(jù)該團隊發(fā)表的論文稱,USM使用的是標準的編碼器-解碼器架構,其中解碼器是CTC、RNN-T和LAS,編碼器使用的是Conformer或卷積增強變換器。其中,Conformer使用的關鍵組件是Conformer塊,由注意力模塊、前饋模塊和卷積模塊組成,應用一系列Conformer塊和投影層以最終嵌入。

據(jù)論文顯示,對于USM的訓練共分為三個步驟。

第一步是使用BEST-RQ來對涵蓋數(shù)百種語種的語音音頻進行自我監(jiān)督學習,已經(jīng)在多語言任務上展示了最先進的結果,在使用了大量的無監(jiān)督音頻數(shù)據(jù)后的證明結果是有效的。

第二步需要使用多目標監(jiān)督預訓練來整合來自于其他文本數(shù)據(jù)的信息。該模型引入了一個額外的編碼器模塊來輸入文本,并引入額外層來組合語音編碼器和文本編碼器的輸出,并在未標記語音、標記語音和文本數(shù)據(jù)上聯(lián)合訓練模型。

最后一步需要USM對下游任務進行微調,包括ASR(自動語音識別)和AST(自動語音翻譯)。

▲USM的整體培訓渠道

對于USM的有效性,團隊通過Youtube Caption的多語言語音數(shù)據(jù)進行微調來驗證。

受監(jiān)督的Youtube數(shù)據(jù)包括有73種語種,每個語種的數(shù)據(jù)不到3000小時。盡管監(jiān)督的數(shù)據(jù)有限,但USM在73個語種當中實現(xiàn)了平均低于30%的單詞容錯率(WER),與當前內(nèi)部最先進的模型相比降低了6%。與進行了近40萬小時數(shù)據(jù)訓練的大型模型Whisper相比,USM的錯誤率更低,它在18個語種中的解碼錯誤率僅有32.7%,而Whisper有40%。

▲在WER低于40%的情況下,USM在其支持的語言上優(yōu)于Whisper

在公開可用的數(shù)據(jù)上,與Whisper相比,USM在CORAAL(非裔美國人使用的英語)、SpeechStew和FLEURS這三個語言數(shù)據(jù)集上都顯示出了更低的單詞容錯率。

▲在ASR基準上比較USM(有或沒有域內(nèi)數(shù)據(jù))和Whisper的結果。

對于語音翻譯,團隊在CoVoST數(shù)據(jù)集上微調USM,在有限的監(jiān)督數(shù)據(jù)上實現(xiàn)了最好的性能。為了評估模型性能的廣度,他們根據(jù)資源可用性將CoVoST數(shù)據(jù)集中的語言分為高、中、低三類,并計算每個部分中的BLEU分數(shù)(機器翻譯評價指標),根據(jù)最終展示出的結果,USM在所有細分市場上的表現(xiàn)都優(yōu)于Whisper。

他們認為,谷歌若想實現(xiàn)連接全球信息并使每個人都能自由訪問的愿景,USM的開發(fā)將會是關鍵的一步,USM的基礎模型框架和訓練通道已經(jīng)打下了一個基礎,他們要做的就是在此基礎上將語音模型擴展至1000種語言。

03.結語:AI突破語言障礙 助全球打破信息繭房

目前,USM已支持100多個語種,未來將持續(xù)擴展到1000多個,屆時將會吸引到更大一部分用戶進行體驗,真正實現(xiàn)將信息分發(fā)到全球各個角落。

信息時代,科技進步將會進一步幫助各個國家地區(qū)的語言和文化突破地域的限制,很大程度上解決信息繭房帶來的困擾。

來源:The Verge、谷歌博客

本文為轉載內(nèi)容,授權事宜請聯(lián)系原著作權人。

谷歌

5.5k
  • 日本將谷歌等3家IT企業(yè)指定為反壟斷新法適用對象
  • 谷歌致中國合作伙伴信曝光:仍將發(fā)布完整源代碼至AOSP

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

擊敗OpenAI:谷歌公布20億參數(shù)通用語音模型,支持100+語種檢測翻譯

根據(jù)谷歌博客,與OpenAI的大型通用語音模型Whisper相比,USM的數(shù)據(jù)訓練時長更短,錯誤率更低。

攝影:界面新聞 匡達

編譯 | 吳菲凝

編輯 | 李水青

根據(jù)谷歌官網(wǎng),谷歌的通用語音模型USM目前已實現(xiàn)升級,支持100多個語種內(nèi)容的自動識別檢測。

去年11月,谷歌曾計劃創(chuàng)建一個支持1000個語種的AI模型USM。谷歌將其描述為“最先進的通用語音模型”,擁有20億個參數(shù),經(jīng)過涵蓋1200萬小時的語音、280億個句子和300多個語種數(shù)據(jù)集的預訓練。

USM的強大效果目前已在Youtube的字幕生成中展現(xiàn)出來,可自動翻譯和檢測如英語、漢語等主流語種,還能識別出阿薩姆語這種小眾語種,可以說“精通方言”。

根據(jù)谷歌博客,與OpenAI的大型通用語音模型Whisper相比,USM的數(shù)據(jù)訓練時長更短,錯誤率更低。

01.可自動檢測翻譯100+語種USM面臨兩大挑戰(zhàn)

當微軟和谷歌還在為誰家的AI聊天機器人更智能而爭論不休時,我們需要清楚,語音模型的用途遠不止于此。

外媒The Verge的記者稱,除了相傳將在今年的I/O開發(fā)者大會中展示的20多款AI驅動產(chǎn)品之外,谷歌目前還在朝著更高目標邁進——構建一個支持1000種語種的機器學習模型。

在周一發(fā)布的更新中,谷歌分享了更多有關USM的信息,谷歌稱,這是構建支持1000種語言的通用語音模型的“關鍵第一步”。

USM已被YouTube用于生成字幕,它還支持自動語音識別(ASR),可自動檢測和翻譯語言,不僅包括普通話、英語等廣泛使用的語言,還包括阿姆哈拉語、宿務語、阿薩姆語等冷門語言。

目前,谷歌稱USM可支持檢測100多個語種,并將作為構建更大的系統(tǒng)的“基礎”。不過,這項技術似乎還有些遙遠,谷歌在I/O開發(fā)者大會期間對阿拉伯語的錯誤表述就已證明。

谷歌研究院科學家張宇(Yu Zhang)和軟件工程師詹姆斯·秦(James Qin)在谷歌博客上發(fā)文稱,為了實現(xiàn)USM這個雄心勃勃的目標,他們目前需要解決ASR面臨的兩個重大挑戰(zhàn)。

一是傳統(tǒng)的學習方法的缺乏可擴展性。語音技術擴展到多語種的一個基本挑戰(zhàn)是需要足夠的數(shù)據(jù)來訓練高質量的模型,使用傳統(tǒng)方法時,需要手動將音頻數(shù)據(jù)進行標記,既耗時又價格高昂,對于那些小眾冷門的語種而言,也更難找到預先存在的來源收集。因此,研究院后續(xù)準備將傳統(tǒng)學習方法轉變?yōu)樽晕冶O(jiān)督學習,利用純音頻來收集數(shù)據(jù)。

二是在擴大語言覆蓋范圍和質量的同時,模型必須以計算效率更高的方法來改進。這就要求學習算法更加靈活、高效、泛化。這些算法需要使用來源廣泛的數(shù)據(jù),并在不用完全訓練的情況下更新模型,再推廣到新的語言中。

02.三個步驟降低識別錯誤率擊敗OpenAI

據(jù)該團隊發(fā)表的論文稱,USM使用的是標準的編碼器-解碼器架構,其中解碼器是CTC、RNN-T和LAS,編碼器使用的是Conformer或卷積增強變換器。其中,Conformer使用的關鍵組件是Conformer塊,由注意力模塊、前饋模塊和卷積模塊組成,應用一系列Conformer塊和投影層以最終嵌入。

據(jù)論文顯示,對于USM的訓練共分為三個步驟。

第一步是使用BEST-RQ來對涵蓋數(shù)百種語種的語音音頻進行自我監(jiān)督學習,已經(jīng)在多語言任務上展示了最先進的結果,在使用了大量的無監(jiān)督音頻數(shù)據(jù)后的證明結果是有效的。

第二步需要使用多目標監(jiān)督預訓練來整合來自于其他文本數(shù)據(jù)的信息。該模型引入了一個額外的編碼器模塊來輸入文本,并引入額外層來組合語音編碼器和文本編碼器的輸出,并在未標記語音、標記語音和文本數(shù)據(jù)上聯(lián)合訓練模型。

最后一步需要USM對下游任務進行微調,包括ASR(自動語音識別)和AST(自動語音翻譯)。

▲USM的整體培訓渠道

對于USM的有效性,團隊通過Youtube Caption的多語言語音數(shù)據(jù)進行微調來驗證。

受監(jiān)督的Youtube數(shù)據(jù)包括有73種語種,每個語種的數(shù)據(jù)不到3000小時。盡管監(jiān)督的數(shù)據(jù)有限,但USM在73個語種當中實現(xiàn)了平均低于30%的單詞容錯率(WER),與當前內(nèi)部最先進的模型相比降低了6%。與進行了近40萬小時數(shù)據(jù)訓練的大型模型Whisper相比,USM的錯誤率更低,它在18個語種中的解碼錯誤率僅有32.7%,而Whisper有40%。

▲在WER低于40%的情況下,USM在其支持的語言上優(yōu)于Whisper

在公開可用的數(shù)據(jù)上,與Whisper相比,USM在CORAAL(非裔美國人使用的英語)、SpeechStew和FLEURS這三個語言數(shù)據(jù)集上都顯示出了更低的單詞容錯率。

▲在ASR基準上比較USM(有或沒有域內(nèi)數(shù)據(jù))和Whisper的結果。

對于語音翻譯,團隊在CoVoST數(shù)據(jù)集上微調USM,在有限的監(jiān)督數(shù)據(jù)上實現(xiàn)了最好的性能。為了評估模型性能的廣度,他們根據(jù)資源可用性將CoVoST數(shù)據(jù)集中的語言分為高、中、低三類,并計算每個部分中的BLEU分數(shù)(機器翻譯評價指標),根據(jù)最終展示出的結果,USM在所有細分市場上的表現(xiàn)都優(yōu)于Whisper。

他們認為,谷歌若想實現(xiàn)連接全球信息并使每個人都能自由訪問的愿景,USM的開發(fā)將會是關鍵的一步,USM的基礎模型框架和訓練通道已經(jīng)打下了一個基礎,他們要做的就是在此基礎上將語音模型擴展至1000種語言。

03.結語:AI突破語言障礙 助全球打破信息繭房

目前,USM已支持100多個語種,未來將持續(xù)擴展到1000多個,屆時將會吸引到更大一部分用戶進行體驗,真正實現(xiàn)將信息分發(fā)到全球各個角落。

信息時代,科技進步將會進一步幫助各個國家地區(qū)的語言和文化突破地域的限制,很大程度上解決信息繭房帶來的困擾。

來源:The Verge、谷歌博客

本文為轉載內(nèi)容,授權事宜請聯(lián)系原著作權人。