當(dāng)前位置：主頁(yè) > 油煙機(jī) > 維修資訊 >

只需1%參數(shù)，效果超越ControlNet，新AI繪畫(huà)控制大師來(lái)襲

發(fā)布日期：2023-09-23 18:20:54 瀏覽：

西風(fēng) 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI
“新·AI繪畫(huà)細(xì)節(jié)控制大師”ControlNetXS來(lái)啦！

敲重點(diǎn)的是參數(shù)只要原始ControlNet的1%。

就能做到蛋糕口味隨意切換：

△左圖為改前

改變一個(gè)人的行頭也輕輕松松：

上圖同款，身形不變藝術(shù)氛圍感拉滿(mǎn)：

自然風(fēng)光也能hou住，一年四季任意切換：

還有這貓頭鷹，直接從活物變雕塑：

參數(shù)很小的情況下，能做到這樣的效果，網(wǎng)友也是直呼絕絕子，并迫不及待想看論文。

ControlNetXS由海德堡大學(xué)計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室研發(fā)，目前相關(guān)論文、預(yù)訓(xùn)練模型還未公布。

但研究人員表示ControlNetXSFID分?jǐn)?shù)明顯優(yōu)于ControlNet。

且控制Stable DiffusionXL和Stable Diffusion 2.1的代碼將在不久后開(kāi)源。

新生代控制大師

先來(lái)康康對(duì)StableDiffusionXL的控制。

研究人員在評(píng)估了不同大小的控制模型后發(fā)現(xiàn)，控制模型甚至不必和2.6B參數(shù)的StableDiffusionXL基礎(chǔ)網(wǎng)絡(luò)大小一樣。

400M、104M和48M參數(shù)的ControlNetXS控制也很明顯。

深度圖給出了更為直觀的展示，根據(jù)圖像內(nèi)容的距離、深度，深度圖呈現(xiàn)出準(zhǔn)確的顏色深淺度：

要注意的是，這里研究人員設(shè)置的每行seed值不同，每列seed值相同。

此外，還有Canny邊緣檢測(cè)圖，物體的邊界、輪廓都能清晰地展現(xiàn)出來(lái)：

對(duì)StableDiffusion的控制，研究人員則是評(píng)估了491M、55M和14M參數(shù)的三個(gè)版本的ControlNetXS。

結(jié)果表明1.6%的參數(shù)（865M）也能夠可靠地控制生成過(guò)程。

那這是如何做到的呢？

從頭開(kāi)始訓(xùn)練

原始ControlNet是StableDiffusion基礎(chǔ)模型（base model）中UNet編碼器的副本，所以接收與基礎(chǔ)模型相同的輸入，并帶有額外的引導(dǎo)信號(hào)，比如說(shuō)邊緣圖。

然后，經(jīng)過(guò)訓(xùn)練的ControlNet的中間輸出被添加到基礎(chǔ)模型的解碼器層的輸入中。在ControlNet的整個(gè)訓(xùn)練過(guò)程中，基礎(chǔ)模型的權(quán)重保持凍結(jié)狀態(tài)。

ControlNetXS的研究者們認(rèn)為這種方法存在問(wèn)題，ControlNet不必這么龐大。

首先是Stable Diffusion最終輸出圖像，是在一系列步驟中迭代生成的。每個(gè)步驟會(huì)在UNet網(wǎng)絡(luò)結(jié)構(gòu)的編碼器（Encoder）和解碼器（Decoder）兩部分中執(zhí)行。

每次迭代基礎(chǔ)模型和控制模型的輸入是前一個(gè)步驟生成的圖像。控制模型還接收一個(gè)控制圖像。

問(wèn)題在于，在編碼器階段這兩個(gè)模型都獨(dú)立運(yùn)行，而控制模型的反饋只在基礎(chǔ)模型的解碼階段輸入。

總之，結(jié)果就是一個(gè)延遲的校正/控制機(jī)制。

也就是說(shuō)ControlNet必須執(zhí)行兩項(xiàng)任務(wù)：一邊校正/控制，一邊還要提前預(yù)測(cè)基本模型的編碼器將犯哪些“錯(cuò)誤”。

通過(guò)暗示圖像生成和控制需要相似的模型容量，自然而然地可以用基礎(chǔ)模型的權(quán)重初始化ControlNet的權(quán)重，然后進(jìn)行微調(diào)。

而對(duì)于ControlNetXS，研究人員表示從設(shè)計(jì)上就與基礎(chǔ)模型不同，是從零開(kāi)始訓(xùn)練ControlNetXS權(quán)重，解決了延遲反饋的問(wèn)題。

如上圖所示，方法是從基礎(chǔ)模型的編碼器添加連接到控制編碼器（A），這樣校正過(guò)程可以更快地適應(yīng)基礎(chǔ)模型的生成過(guò)程。但這并不能完全消除延遲，因?yàn)榛A(chǔ)模型的編碼器仍然沒(méi)有受到引導(dǎo)。

因此，研究人員從ControlNetXS添加額外的連接到基礎(chǔ)模型編碼器，直接影響整個(gè)生成過(guò)程（B）。

此外，他們還評(píng)估了在ControlNet設(shè)置中使用鏡像解碼架構(gòu)是否有用（C）。

最終，研究人員在COCO2017驗(yàn)證集上，針對(duì)Canny邊緣引導(dǎo)的三種不同變體（A、B、C）與原始的ControlNet進(jìn)行了FID分?jǐn)?shù)性能評(píng)估。

結(jié)果所有變體都有了顯著提升，同時(shí)僅使用了原始ControlNet參數(shù)的一小部分。

研究人員又拿出了變體B，分別使用Canny邊緣圖和深度圖引導(dǎo)，針對(duì)StableDiffusion2.1和StableDiffusionXL分別訓(xùn)練了三種不同大小的模型。

所以下一步就等相關(guān)論文、代碼以及預(yù)訓(xùn)練模型公布啦～

項(xiàng)目地址：https://vislearn.github.io/ControlNetXS/

— 完 —

量子位 QbitAI · 頭條號(hào)簽約

關(guān)注我們，第一時(shí)間獲知前沿科技動(dòng)態(tài)

上一篇：《杭州第19屆亞洲運(yùn)動(dòng)會(huì)》紀(jì)念郵票發(fā)行

下一篇：2022年度廣東省科學(xué)技術(shù)獎(jiǎng)公布，兩位院士獲突出貢獻(xiàn)獎(jiǎng)

只需1%參數(shù)，效果超越ControlNet，新AI繪畫(huà)控制大師來(lái)襲

相關(guān)推薦

熱門(mén)排行

最新發(fā)布

世界男排聯(lián)賽再爆大冷！中國(guó)男排3-1歐洲勁旅，首次連勝排名飆升

“蝴蝶”在廣東雷州市西部沿海再次登陸，廣州多區(qū)發(fā)布暴雨預(yù)警

“蝴蝶”在廣東雷州市西部沿海再次登陸減弱為強(qiáng)熱帶風(fēng)暴級(jí)

紅色預(yù)警！確認(rèn)影響浙江，周末天氣太刺激

vivo首款FE后綴手機(jī)：X200 FE被曝7月發(fā)布

隨便看看

24小時(shí)家電維修熱線： 400—1558638

只需1%參數(shù)，效果超越ControlNet，新AI繪畫(huà)控制大師來(lái)襲

相關(guān)推薦

熱門(mén)排行

最新發(fā)布

世界男排聯(lián)賽再爆大冷！中國(guó)男排3-1歐洲勁旅，首次連勝排名飆升

“蝴蝶”在廣東雷州市西部沿海再次登陸，廣州多區(qū)發(fā)布暴雨預(yù)警

“蝴蝶”在廣東雷州市西部沿海再次登陸 減弱為強(qiáng)熱帶風(fēng)暴級(jí)

紅色預(yù)警！確認(rèn)影響浙江，周末天氣太刺激

vivo首款FE后綴手機(jī)：X200 FE被曝7月發(fā)布

隨便看看

24小時(shí)家電維修熱線： 400—1558638

“蝴蝶”在廣東雷州市西部沿海再次登陸減弱為強(qiáng)熱帶風(fēng)暴級(jí)