欧洲精品久久久av无码电影,日日噜噜夜夜爽爽,精品无码国产自产拍在线观看蜜,人妻少妇被粗大爽9797pw,羞国产在线拍揄自揄视频,国产白嫩漂亮美女在线观看,天码欧美日本一道免费,av大片在线无码免费

      歡迎來(lái)到同城快修-附近家電維修、家電清洗、家電安裝服務(wù)平臺(tái)

      24小時(shí)家電維修熱線:

      400—1558638

      當(dāng)前位置:主頁(yè) > 油煙機(jī) > 維修資訊 >

      火山語(yǔ)音發(fā)布端云一體多情感語(yǔ)音合成模型PortaSpeech 2

      發(fā)布日期:2023-08-29 16:01:39 瀏覽:
      火山語(yǔ)音發(fā)布端云一體多情感語(yǔ)音合成模型PortaSpeech 2

      這是一段由真人和TTS組成的錄音,你能聽出哪部分是真人、哪部分是合成嗎?

      以上音頻采用火山語(yǔ)音全新自研的語(yǔ)音合成模型 PortaSpeech 2 (下文簡(jiǎn)稱:PS2)合成。為滿足各種業(yè)務(wù)場(chǎng)景和客戶需求,PS2 在第一代模型PortaSpeech的基礎(chǔ)上,著重對(duì)音質(zhì)韻律、多情感、端云能力以及克隆等進(jìn)行了大規(guī)模升級(jí)。經(jīng)評(píng)測(cè),PS2合成效果與真人錄音相似度高達(dá)99.8%,其中離線合成不僅支持多情感多風(fēng)格,品質(zhì)也與在線合成呈現(xiàn)出高度一致性。

      圖1:社區(qū)開源版 PortaSpeech

      首發(fā)離線多情感多風(fēng)格 品質(zhì)媲美在線實(shí)現(xiàn)無(wú)感切換

      離線合成是指用戶在無(wú)網(wǎng)狀態(tài)下通過(guò)本地設(shè)備實(shí)時(shí)進(jìn)行語(yǔ)音合成,具備實(shí)時(shí)性和隱私保護(hù)的優(yōu)勢(shì),雖然這種離線方式消除了對(duì)網(wǎng)絡(luò)連接的依賴,用戶可以在任何時(shí)間、任何地點(diǎn)進(jìn)行合成,但往往很難與在線合成相媲美。經(jīng)過(guò)深入的訓(xùn)練與優(yōu)化,PS2 打破傳統(tǒng)的單一化低品質(zhì)的離線效果,具備了與在線合成的品質(zhì)并具有多情感、多風(fēng)格能力,讓用戶在無(wú)網(wǎng)、弱網(wǎng)狀態(tài)下也能夠享受到極致的語(yǔ)音合成體驗(yàn)。

      作為業(yè)界首個(gè)支持多情感多風(fēng)格的端云一體模型,PS2的端云側(cè)同時(shí)兼具“三高”,即高品質(zhì)、高一致和高性能。

      PS2端側(cè)能支持的情感、風(fēng)格范圍非常廣泛,包括但不限于開心、悲傷、愉悅、抱歉、撒嬌、鼓勵(lì)等。

      此外基于端云一體的架構(gòu)設(shè)計(jì)和生成式蒸餾的訓(xùn)推策略,PS2的端云側(cè)可同時(shí)兼具高質(zhì)量和音質(zhì)一致性,實(shí)現(xiàn)用戶在端側(cè)和云側(cè)之間切換時(shí)幾乎無(wú)感知;并且從各維度充分考慮了用戶在不同場(chǎng)景下的需求,確保了端到云的效果在各個(gè)環(huán)節(jié)都能夠保持高度一致。實(shí)際使用中,會(huì)根據(jù)用戶的操作和網(wǎng)絡(luò)狀態(tài)選擇最優(yōu)模型進(jìn)行語(yǔ)音合成,保障用戶在任何環(huán)境下都能享受到流暢的語(yǔ)音合成體驗(yàn)。

      為了最大程度提升PS2在資源利用率和性能方面的成績(jī),為用戶帶來(lái)更為穩(wěn)定和高效的使用體驗(yàn),火山語(yǔ)音團(tuán)隊(duì)在訓(xùn)練階段,針對(duì)不同模型特點(diǎn)采用 Int8 和 fp16 量化訓(xùn)練,有效降低模型占用空間并為將來(lái)在多種硬件設(shè)備上提供高速推理能力奠定基礎(chǔ);在推理階段,支持流式推理以降低處理首批數(shù)據(jù)時(shí)的延遲,提升系統(tǒng)響應(yīng)速度和實(shí)時(shí)性,為用戶帶來(lái)更流暢的體驗(yàn)。性能評(píng)測(cè)如下表:

      硬件

      A76(驍龍8155 )

      [CPU/GPU]

      A73 (驍龍660)

      [CPU/GPU]

      A53(rk3562 )

      [NPU]

      適用設(shè)備

      車機(jī)系統(tǒng)

      手機(jī)、VR眼鏡等

      點(diǎn)讀筆等攜帶式設(shè)備

      首包

      100ms/100ms

      100ms/100ms

      300ms

      整體鏈路 rtf

      0.12/0.10

      0.38/0.25

      0.25

      高度還原 在線合成與真人相似度高達(dá)99.8%

      除了多重技術(shù)方向的創(chuàng)新升級(jí)之外,新晉的PS2模型在云端應(yīng)用中也展現(xiàn)出了高品質(zhì)的語(yǔ)音合成能力以及效果。無(wú)論是與真人錄音相比較,還是與其他語(yǔ)音合成模型進(jìn)行對(duì)比,PS2在各類場(chǎng)景中均有出色表現(xiàn)。

      任意文本內(nèi)容都可以穩(wěn)定合成出媲美真人錄音的效果。

      聚焦模型結(jié)構(gòu)與訓(xùn)推范式創(chuàng)新 PS2帶來(lái)合成技術(shù)新突破

      「模型結(jié)構(gòu)升級(jí)」模型結(jié)構(gòu)方面,PS2引入了全新的中間聲學(xué)表征、聲學(xué)模型和聲碼器。相較于從前,PS2根據(jù)語(yǔ)音數(shù)據(jù)本身的特點(diǎn),使用了更加精細(xì)的聲學(xué)特征HiFiSpec。可以極大保留訓(xùn)練數(shù)據(jù)的音高、音頻等細(xì)節(jié)信息,提高模型在音質(zhì)和韻律的生成上限,使生成的語(yǔ)音音質(zhì)更加清亮、飽滿和穩(wěn)定。

      具體來(lái)說(shuō),PS2的聲學(xué)模型根據(jù)HiFiSpec數(shù)據(jù)本身的特點(diǎn),設(shè)計(jì)了兼具長(zhǎng)短時(shí)依賴的編解碼器,引入了基于隱韻律表征預(yù)測(cè)的對(duì)抗生成式神經(jīng)網(wǎng)絡(luò);同時(shí)使用蒙特卡洛采樣對(duì)隱韻律表征分布進(jìn)行高精度和高效近似,允許其最大程度還原HiFiSpec的真實(shí)分布和多樣性,使合成的語(yǔ)音更接近自然狀態(tài)下的人類聲音。聲碼器方面,PS2優(yōu)化了音頻波形分布擬合目標(biāo),同時(shí)借助HiFiSpec的高表達(dá)性,重現(xiàn)極致音色和音質(zhì)效果。

      圖2:火山語(yǔ)音新一代 PortaSpeech 2 模型框架圖

      「訓(xùn)推范式升級(jí)」訓(xùn)推范式方面,PS2推翻了以往語(yǔ)音合成模型預(yù)訓(xùn)練和微調(diào)的傳統(tǒng)范式,轉(zhuǎn)而采用新型自研教師學(xué)生模型訓(xùn)練范式。為了更好地?cái)M合真實(shí)的語(yǔ)音分布,PS2的教師模型會(huì)自動(dòng)根據(jù)不同業(yè)務(wù)場(chǎng)景特性,動(dòng)態(tài)結(jié)合類似GPT的上下文學(xué)習(xí)(Incontext learning)和微調(diào)學(xué)習(xí)(finetuning)方法,快速完成新音色、場(chǎng)景和情感的訓(xùn)練。

      為了實(shí)現(xiàn)極致的模型性能和尺寸,PS2還進(jìn)一步提出了一種名為“生成式蒸餾”的方案。即完成訓(xùn)練的教師模型會(huì)將它學(xué)到的語(yǔ)音數(shù)據(jù)分布通過(guò)分布形狀規(guī)整和長(zhǎng)尾裁剪等方式,將最適用具體業(yè)務(wù)場(chǎng)景的語(yǔ)音分布傳授給學(xué)生模型,從而允許學(xué)生模型在極小的模型參數(shù)下,生成的語(yǔ)音質(zhì)量和韻律幾乎與教師模型無(wú)異。此外,學(xué)生模型還可以完美繼承教師模型的諸多能力,包括多語(yǔ)言和多情感等,可以勝任各種端上和端云混合場(chǎng)景。訓(xùn)練數(shù)據(jù)方面,除了火山語(yǔ)音內(nèi)部錄制的大量精品數(shù)據(jù)以外,PS2還使用萬(wàn)小時(shí)以上私有版權(quán)語(yǔ)音數(shù)據(jù),借助高效先進(jìn)的模型架構(gòu)和訓(xùn)推范式,可以在僅有少量數(shù)據(jù)下實(shí)現(xiàn)表現(xiàn)力、情感和音色的遷移,滿足絕大多數(shù)場(chǎng)景需求。

      圖3:生成式“教師學(xué)生”模型蒸餾

      火山語(yǔ)音團(tuán)隊(duì)正不斷將打磨多年的語(yǔ)音技術(shù)能力面向市場(chǎng)并通過(guò)火山引擎開放給外部企業(yè),已覆蓋汽車、金融、有聲閱讀、視頻配音等眾多應(yīng)用場(chǎng)景,技術(shù)能力已成功應(yīng)用到抖音、剪映、番茄小說(shuō)等多款產(chǎn)品上,并助力多家行業(yè)頭部企業(yè)實(shí)現(xiàn)AI語(yǔ)音能力的應(yīng)用與拓展。未來(lái)火山語(yǔ)音還將不斷探索前沿科技與業(yè)務(wù)場(chǎng)景的高效結(jié)合,持續(xù)助力用戶體驗(yàn)和業(yè)務(wù)增長(zhǎng),以實(shí)現(xiàn)更大價(jià)值。

      主站蜘蛛池模板: 成年人爱爱视频| 久久国产劲暴∨内射新川| 日韩大陆欧美高清视频区| 日美av| 欧美变态另类zozo| 国产精品18久久久久久欧美| 亚洲精品二区| www.色播| 亚洲成人av综合一区| 亚洲人成在线7777| 亚洲在线免费观看| 18成人在线| 欧美激情一区二区久久久| 岛国在线观看无码不卡| 久青草视频| 91热久久| 欧美老人巨大XXXX做受视频| 人妻系列影片无码专区| 乌克兰毛片| 淫久久| 亚洲精品岛国片在线观看| 国产成人久久av免费高潮| 18做爰免费视频网站| 日韩1级片| 久久久精品2019中文字幕之3| 蜜芽久久人人超碰爱香蕉| 狼人久久| 色在线网站| 夜夜爽妓女8888888视频| 亚洲依依成人综合网址| 奇米影视在线| av一二三四区| 丰满熟妇乱又伦在线无码视频| 亚洲高清成人aⅴ片| 国产一级黄色录像| 日本性视频网站| 中文乱码人妻系列一区二区| 欧美伊香蕉久久综合网另类 | 亚洲日本激情| 日韩精品专区在线影院重磅| 亚洲精品无码久久千人斩探花 |