欧洲精品久久久av无码电影,日日噜噜夜夜爽爽,精品无码国产自产拍在线观看蜜,人妻少妇被粗大爽9797pw,羞国产在线拍揄自揄视频,国产白嫩漂亮美女在线观看,天码欧美日本一道免费,av大片在线无码免费

      歡迎來到同城快修-附近家電維修、家電清洗、家電安裝服務平臺

      24小時家電維修熱線:

      400—1558638

      當前位置:主頁 > 油煙機 > 維修資訊 >

      火山語音發布端云一體多情感語音合成模型PortaSpeech 2

      發布日期:2023-08-29 16:01:39 瀏覽:
      火山語音發布端云一體多情感語音合成模型PortaSpeech 2

      這是一段由真人和TTS組成的錄音,你能聽出哪部分是真人、哪部分是合成嗎?

      以上音頻采用火山語音全新自研的語音合成模型 PortaSpeech 2 (下文簡稱:PS2)合成。為滿足各種業務場景和客戶需求,PS2 在第一代模型PortaSpeech的基礎上,著重對音質韻律、多情感、端云能力以及克隆等進行了大規模升級。經評測,PS2合成效果與真人錄音相似度高達99.8%,其中離線合成不僅支持多情感多風格,品質也與在線合成呈現出高度一致性。

      圖1:社區開源版 PortaSpeech

      首發離線多情感多風格 品質媲美在線實現無感切換

      離線合成是指用戶在無網狀態下通過本地設備實時進行語音合成,具備實時性和隱私保護的優勢,雖然這種離線方式消除了對網絡連接的依賴,用戶可以在任何時間、任何地點進行合成,但往往很難與在線合成相媲美。經過深入的訓練與優化,PS2 打破傳統的單一化低品質的離線效果,具備了與在線合成的品質并具有多情感、多風格能力,讓用戶在無網、弱網狀態下也能夠享受到極致的語音合成體驗。

      作為業界首個支持多情感多風格的端云一體模型,PS2的端云側同時兼具“三高”,即高品質、高一致和高性能。

      PS2端側能支持的情感、風格范圍非常廣泛,包括但不限于開心、悲傷、愉悅、抱歉、撒嬌、鼓勵等。

      此外基于端云一體的架構設計和生成式蒸餾的訓推策略,PS2的端云側可同時兼具高質量和音質一致性,實現用戶在端側和云側之間切換時幾乎無感知;并且從各維度充分考慮了用戶在不同場景下的需求,確保了端到云的效果在各個環節都能夠保持高度一致。實際使用中,會根據用戶的操作和網絡狀態選擇最優模型進行語音合成,保障用戶在任何環境下都能享受到流暢的語音合成體驗。

      為了最大程度提升PS2在資源利用率和性能方面的成績,為用戶帶來更為穩定和高效的使用體驗,火山語音團隊在訓練階段,針對不同模型特點采用 Int8 和 fp16 量化訓練,有效降低模型占用空間并為將來在多種硬件設備上提供高速推理能力奠定基礎;在推理階段,支持流式推理以降低處理首批數據時的延遲,提升系統響應速度和實時性,為用戶帶來更流暢的體驗。性能評測如下表:

      硬件

      A76(驍龍8155 )

      [CPU/GPU]

      A73 (驍龍660)

      [CPU/GPU]

      A53(rk3562 )

      [NPU]

      適用設備

      車機系統

      手機、VR眼鏡等

      點讀筆等攜帶式設備

      首包

      100ms/100ms

      100ms/100ms

      300ms

      整體鏈路 rtf

      0.12/0.10

      0.38/0.25

      0.25

      高度還原 在線合成與真人相似度高達99.8%

      除了多重技術方向的創新升級之外,新晉的PS2模型在云端應用中也展現出了高品質的語音合成能力以及效果。無論是與真人錄音相比較,還是與其他語音合成模型進行對比,PS2在各類場景中均有出色表現。

      任意文本內容都可以穩定合成出媲美真人錄音的效果。

      聚焦模型結構與訓推范式創新 PS2帶來合成技術新突破

      「模型結構升級」模型結構方面,PS2引入了全新的中間聲學表征、聲學模型和聲碼器。相較于從前,PS2根據語音數據本身的特點,使用了更加精細的聲學特征HiFiSpec。可以極大保留訓練數據的音高、音頻等細節信息,提高模型在音質和韻律的生成上限,使生成的語音音質更加清亮、飽滿和穩定。

      具體來說,PS2的聲學模型根據HiFiSpec數據本身的特點,設計了兼具長短時依賴的編解碼器,引入了基于隱韻律表征預測的對抗生成式神經網絡;同時使用蒙特卡洛采樣對隱韻律表征分布進行高精度和高效近似,允許其最大程度還原HiFiSpec的真實分布和多樣性,使合成的語音更接近自然狀態下的人類聲音。聲碼器方面,PS2優化了音頻波形分布擬合目標,同時借助HiFiSpec的高表達性,重現極致音色和音質效果。

      圖2:火山語音新一代 PortaSpeech 2 模型框架圖

      「訓推范式升級」訓推范式方面,PS2推翻了以往語音合成模型預訓練和微調的傳統范式,轉而采用新型自研教師學生模型訓練范式。為了更好地擬合真實的語音分布,PS2的教師模型會自動根據不同業務場景特性,動態結合類似GPT的上下文學習(Incontext learning)和微調學習(finetuning)方法,快速完成新音色、場景和情感的訓練。

      為了實現極致的模型性能和尺寸,PS2還進一步提出了一種名為“生成式蒸餾”的方案。即完成訓練的教師模型會將它學到的語音數據分布通過分布形狀規整和長尾裁剪等方式,將最適用具體業務場景的語音分布傳授給學生模型,從而允許學生模型在極小的模型參數下,生成的語音質量和韻律幾乎與教師模型無異。此外,學生模型還可以完美繼承教師模型的諸多能力,包括多語言和多情感等,可以勝任各種端上和端云混合場景。訓練數據方面,除了火山語音內部錄制的大量精品數據以外,PS2還使用萬小時以上私有版權語音數據,借助高效先進的模型架構和訓推范式,可以在僅有少量數據下實現表現力、情感和音色的遷移,滿足絕大多數場景需求。

      圖3:生成式“教師學生”模型蒸餾

      火山語音團隊正不斷將打磨多年的語音技術能力面向市場并通過火山引擎開放給外部企業,已覆蓋汽車、金融、有聲閱讀、視頻配音等眾多應用場景,技術能力已成功應用到抖音、剪映、番茄小說等多款產品上,并助力多家行業頭部企業實現AI語音能力的應用與拓展。未來火山語音還將不斷探索前沿科技與業務場景的高效結合,持續助力用戶體驗和業務增長,以實現更大價值。

      主站蜘蛛池模板: 麻花传媒在线观看免费| 欧美一线高本道| 国产精品国色综合久久| 久久国产精品成人片免费| 亚洲欧美日韩综合一区在线| 精品人妻一区二区免费视频| 国产精品福利自产拍在线观看| 免费无遮挡很爽很污很黄的网站| 久久h| 日本一区二区免费电影| 熟妇人妻无乱码中文字幕真矢织江| 久久国产精品人妻丝袜| av黄色网| 欧美激情视频网| 亚洲乱码中文字幕综合| 国产精品a免费一区久久电影| 91视频久久| 波多野吉衣毛片| 日韩激情无码免费毛片| 国产成人片一区在线观看| 欧美一区二区三区四区五区| 欧美日韩图片| 国产成a人片在线观看视频下载| 2021亚洲国产成a在线| 欧美成人午夜| 无码精品视频一区二区三区| 韩国无码色视频在线观看 | 女人下边被添全过视频的网址| 精品国产女主播在线观看| 久久久综合视频| 日韩欧美日本| 欧美日激情日韩精品嗯| 樱桃空空人妻无码内射| 色图综合| 蜜乳av一区二区| 亚洲精品电影院| 久久性色av亚洲电影| 咪咪色影院| 成人在线电影网站| 欧美人与动牲交a免费| 精品亚洲国产成人av在线时间短的 |