正在閱讀:

珠峰AI音視頻創(chuàng)作平臺為眾多作者賦能,推動喜馬拉雅上市

掃一掃下載界面新聞APP

珠峰AI音視頻創(chuàng)作平臺為眾多作者賦能,推動喜馬拉雅上市

目前,人工智能正在進(jìn)入加速發(fā)展階段,在眾多的細(xì)分領(lǐng)域中,生成式人工智能(AIGC)的發(fā)展尤為引人關(guān)注。

圖片來源: 圖蟲創(chuàng)意

目前,人工智能正在進(jìn)入加速發(fā)展階段,在眾多的細(xì)分領(lǐng)域中,生成式人工智能(AIGC)的發(fā)展尤為引人關(guān)注。根據(jù)各地網(wǎng)信辦發(fā)布的公告,目前全國范圍內(nèi)已有上百個(gè)生成式人工智能服務(wù)通過網(wǎng)信辦備案。很多人士關(guān)心的是,這些大模型到底會如何落地,又會給音頻等行業(yè)帶來什么樣的改變呢?

走在行業(yè)前沿的喜馬拉雅給出了這些問題的答案,其打造的珠峰AI音視頻創(chuàng)作平臺,通過喜馬拉雅大模型,結(jié)合喜馬拉雅獨(dú)有的全品類音色庫和數(shù)字人大模型,為創(chuàng)作人提供高品質(zhì)的AIGC和數(shù)智人服務(wù)。據(jù)了解,喜馬拉雅音頻大模型與米哈游、閱文集團(tuán)的筑夢島等文本大模型,共同進(jìn)入了上海網(wǎng)信辦發(fā)布的新一批上海市生成式大模型備案通過名單,成為全國首個(gè)通過網(wǎng)信辦生成式人工智能服務(wù)的音頻生成類大模型。

喜馬拉雅音頻大模型是全球首個(gè)第四代多情感演繹、超自然表達(dá)的音頻生成大模型。該模型是珠峰AI團(tuán)隊(duì)基于自研文本音頻聯(lián)合建模的LLM框架,在同一空間向量表征下實(shí)現(xiàn)音頻與文本的聯(lián)合建模訓(xùn)練。這種聯(lián)合建模的方法,充分賦予了音頻生成任務(wù)以強(qiáng)大的語義信息,并充分利用它們之間的內(nèi)在聯(lián)系和互補(bǔ)信息,大幅度提高模型的性能和泛化能力,這也是第四代音頻大模型超越上一代的核心技術(shù)突破。

在訓(xùn)練過程中,喜馬拉雅珠峰AI首先將音頻數(shù)據(jù)和文本數(shù)據(jù)分別進(jìn)行預(yù)處理,將它們轉(zhuǎn)化為適合模型輸入的 token 形式。將音頻 token 和文本 token 映射到同一空間向量表征中,通過使用共享的嵌入層將音頻 token 和文本 token 映射到一個(gè)共同的高維向量空間中,從而使得模型能夠更好地理解和處理音頻和文本之間的關(guān)系。整體訓(xùn)練流程包括預(yù)訓(xùn)練(Pretraining)、有監(jiān)督微調(diào)(SFT)、領(lǐng)域有監(jiān)督微調(diào)(Domain SFT)、說話人有監(jiān)督微調(diào)(Speaker SFT)、強(qiáng)化學(xué)習(xí)(RL)幾個(gè)主要流程。

通過這幾個(gè)流程的訓(xùn)練,依托百萬小時(shí)的自有版權(quán)音頻數(shù)據(jù)進(jìn)行訓(xùn)練后,喜馬拉雅音頻大模型具備情感輸出、自然表達(dá)、語種互譯、超擬人、多情感、15s音色克隆能力和聲音轉(zhuǎn)換等技術(shù)能力,在音頻生成領(lǐng)域?qū)崿F(xiàn)了多維度突破,有力地為眾多的創(chuàng)作者們賦能。


未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。如需轉(zhuǎn)載請聯(lián)系:youlianyunpindao@163.com
以上內(nèi)容與數(shù)據(jù)僅供參考,與界面有連云頻道立場無關(guān),不構(gòu)成投資建議,使用前請核實(shí)。據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

喜馬拉雅

159
  • 優(yōu)質(zhì)內(nèi)容和創(chuàng)新技術(shù)疊加,為喜馬拉雅上市添動力
  • AIGC成為內(nèi)容創(chuàng)作新風(fēng)尚,技術(shù)賦能喜馬拉雅上市

評論

暫無評論哦,快來評價(jià)一下吧!

下載界面新聞

微信公眾號

微博

珠峰AI音視頻創(chuàng)作平臺為眾多作者賦能,推動喜馬拉雅上市

目前,人工智能正在進(jìn)入加速發(fā)展階段,在眾多的細(xì)分領(lǐng)域中,生成式人工智能(AIGC)的發(fā)展尤為引人關(guān)注。

圖片來源: 圖蟲創(chuàng)意

目前,人工智能正在進(jìn)入加速發(fā)展階段,在眾多的細(xì)分領(lǐng)域中,生成式人工智能(AIGC)的發(fā)展尤為引人關(guān)注。根據(jù)各地網(wǎng)信辦發(fā)布的公告,目前全國范圍內(nèi)已有上百個(gè)生成式人工智能服務(wù)通過網(wǎng)信辦備案。很多人士關(guān)心的是,這些大模型到底會如何落地,又會給音頻等行業(yè)帶來什么樣的改變呢?

走在行業(yè)前沿的喜馬拉雅給出了這些問題的答案,其打造的珠峰AI音視頻創(chuàng)作平臺,通過喜馬拉雅大模型,結(jié)合喜馬拉雅獨(dú)有的全品類音色庫和數(shù)字人大模型,為創(chuàng)作人提供高品質(zhì)的AIGC和數(shù)智人服務(wù)。據(jù)了解,喜馬拉雅音頻大模型與米哈游、閱文集團(tuán)的筑夢島等文本大模型,共同進(jìn)入了上海網(wǎng)信辦發(fā)布的新一批上海市生成式大模型備案通過名單,成為全國首個(gè)通過網(wǎng)信辦生成式人工智能服務(wù)的音頻生成類大模型。

喜馬拉雅音頻大模型是全球首個(gè)第四代多情感演繹、超自然表達(dá)的音頻生成大模型。該模型是珠峰AI團(tuán)隊(duì)基于自研文本音頻聯(lián)合建模的LLM框架,在同一空間向量表征下實(shí)現(xiàn)音頻與文本的聯(lián)合建模訓(xùn)練。這種聯(lián)合建模的方法,充分賦予了音頻生成任務(wù)以強(qiáng)大的語義信息,并充分利用它們之間的內(nèi)在聯(lián)系和互補(bǔ)信息,大幅度提高模型的性能和泛化能力,這也是第四代音頻大模型超越上一代的核心技術(shù)突破。

在訓(xùn)練過程中,喜馬拉雅珠峰AI首先將音頻數(shù)據(jù)和文本數(shù)據(jù)分別進(jìn)行預(yù)處理,將它們轉(zhuǎn)化為適合模型輸入的 token 形式。將音頻 token 和文本 token 映射到同一空間向量表征中,通過使用共享的嵌入層將音頻 token 和文本 token 映射到一個(gè)共同的高維向量空間中,從而使得模型能夠更好地理解和處理音頻和文本之間的關(guān)系。整體訓(xùn)練流程包括預(yù)訓(xùn)練(Pretraining)、有監(jiān)督微調(diào)(SFT)、領(lǐng)域有監(jiān)督微調(diào)(Domain SFT)、說話人有監(jiān)督微調(diào)(Speaker SFT)、強(qiáng)化學(xué)習(xí)(RL)幾個(gè)主要流程。

通過這幾個(gè)流程的訓(xùn)練,依托百萬小時(shí)的自有版權(quán)音頻數(shù)據(jù)進(jìn)行訓(xùn)練后,喜馬拉雅音頻大模型具備情感輸出、自然表達(dá)、語種互譯、超擬人、多情感、15s音色克隆能力和聲音轉(zhuǎn)換等技術(shù)能力,在音頻生成領(lǐng)域?qū)崿F(xiàn)了多維度突破,有力地為眾多的創(chuàng)作者們賦能。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。