
對于AIGC設(shè)計師用戶和AI出圖愛好者來說,大顯存高端顯卡當(dāng)然是最佳的高效工具。而目前由于眾所周知的原因,部分高端顯卡的價格被一炒再炒,大大增加了這類用戶的裝機成本。實際上,大家不要忘了AMD旗下的Radeon RX 7900系列其實在AIGC方面的性能也是非常強悍的,特別在是時下熱門的AI出圖應(yīng)用中也有十分出色的表現(xiàn)。再加上AMD顯卡的價格一直都穩(wěn)中有降,因此Radeon RX 7900系列可以說是性價比非常高的AI出圖利器,其中擁有20GB超大顯存的Radeon RX 7900 XT更是爆款甜品。
RDNA3架構(gòu)與超大顯存加持,RX 7900 XT天生適合AIGC

RX 7900 XT采用了小芯片設(shè)計的RDNA3架構(gòu),GCD芯片使用5nm工藝,MCD部分則使用6nm工藝,總面積與上代RX 6950 XT相同,但晶體管達到上代的2.15倍以上,因此能效表現(xiàn)相對上代RDNA2大幅提升。此外,RDNA3架構(gòu)相對上代新增了AI加速器單元,無限緩存也升級到了第二代,等效顯存帶寬是RX 6950 XT的1.67倍,由此也帶來了更為強悍的數(shù)據(jù)吞吐能力。
之所以說RX 7900 XT非常適合AIGC應(yīng)用,一方面就是它擁有強悍的算力,單精度峰值性能高達52 TFLOPS,半精度峰值性能高達103 TFLOPS,分別是RX 6950 XT的2.2倍和2.18,算力直接決定了AI計算的速度,而這方面RX 7900 XT無疑是第一梯隊的水平;另一方面就是它擁有320 bit位寬、容量高達20 GB的GDDR6顯存,這對于AI出圖來講就意味著支持更高的圖片分辨率上限,設(shè)計師可以直出大圖而不用去花時間高清重建。這兩大優(yōu)勢中后者尤其重要,也是小顯存中低端顯卡無法比擬的。
此外,放眼高端顯卡市場,同代競品16GB顯存的RTX 4080售價已經(jīng)超過八千元,再往上就是幾萬元天價且買不到的24GB顯存RTX 4090,已經(jīng)和性價比沒什么關(guān)系了。相比之下,擁有20GB超大顯存的RX 7900 XT僅需5000元出頭真的可以說是性價比爆棚的AIGC利器,再加上現(xiàn)在A卡還可以通過微軟Olive工具來優(yōu)化模型提升出圖速度,所以它特別適合需求比基礎(chǔ)AI玩家更高更專業(yè)的AIGC設(shè)計師用戶和AI深度愛好者。
接下來就讓我們一起來看看RX 7900 XT在熱門本地AI出圖工具Stable Diffusion中的性能表現(xiàn)吧。
Stable Diffusion出圖實測:RX 7900 XT大顯存尤其搶眼
測試平臺
顯卡:AMD Radeon RX 7900 XT
處理器:AMD銳龍5 7600X
內(nèi)存:阿斯加特DDR5 7200 16GB×2
主板:華碩TUF GAMING A620M-PLUS
硬盤:WD_BLACK SN850X 2TB
電源:ROG雷神THOR 1600W
操作系統(tǒng):Windows 11專業(yè)版23H2

Stable Diffusion的Windows版早就已經(jīng)添加了對DirectML的支持,因此AMD顯卡也可以在Windows 10/11系統(tǒng)中實現(xiàn)對它的硬件加速。原版的Stable Diffusion環(huán)境配置和各種設(shè)定比較復(fù)雜(主要是受網(wǎng)絡(luò)連接的影響),嫌麻煩也可以選用各位AI大佬制作的整合包,本次我們測試也選用了B站UP主秋葉制作的整合包,經(jīng)過簡單的設(shè)置后即可在高級選項中選擇實用RX 7900 XT以DirectML的模式進行加速。此外,由于RX 7900 XT擁有20GB大顯存,所以我們可以直接選擇12GB以上顯存的模式實現(xiàn)效率最大化。

實測出圖時,我們設(shè)置迭代步數(shù)20、Euler采樣a、512×512分辨率、CFG為7,模型選用麥橘唯美人物模型。從圖中可以看到,在一批次出五張圖的設(shè)定下,20GB顯存已經(jīng)完全用滿,此時RX 7900 XT已經(jīng)做到了全速輸出,完成時間大約為22秒。

讓我們再進一步增加計算壓力,一次生成10張圖,此時RX 7900 XT也處于滿載輸出狀態(tài),20GB顯存占滿也并沒有明顯拖慢速度,完成的時間大約為47秒,略高于5張圖22秒的兩倍。我們也用純處理器試著出了一張圖用作參考,以測試平臺的6核處理器來看,出一張圖大約需要3分18秒,而RX 7900 XT出一張圖大約費時6.8秒,差不多快了28倍,很顯然要做AIGC,高性能顯卡確實是首選方案。
從Stable Diffusion的出圖測試來看,在一次生成多張或生成更高分辨率的圖片時,Stable Diffusion對顯存的占用是非常高的,吃滿20GB顯存也并不稀奇,而顯存低于20GB的話,就可能會因為爆顯存影響效率或無法正常出圖。因此,像是AIGC設(shè)計師或者是深度AI玩家,擁有20GB大顯存且自身算力也過硬的RX 7900 XT確實是上佳之選。
支持Olive模型優(yōu)化,RX 7900 XT的AI出圖性能再度暴增

我們知道,在幾個月前,AMD和微軟合作優(yōu)化了Microsoft Olive路徑,可以把基本模型從PyTorch轉(zhuǎn)換為ONNX,從而巨幅提升AMD顯卡在文生圖方面的計算效率。目前經(jīng)過多個版本的迭代,AMD顯卡使用Olive優(yōu)化模型的設(shè)置也變得更加簡單,普通玩家也可以輕松上手了,接下來就讓我們實際體驗一下。
測試環(huán)境依然是在Windows平臺下,我們需要安裝Git For Windows、Python For Windows和Miniconda For Windows,這些去官網(wǎng)下載安裝就好,記得裝完之后確保它們加入了系統(tǒng)變量Path。接下來就是配置虛擬環(huán)境、安裝Olive、克隆Stable Diffusion到本地,啟動Stable Diffusion自動下載需要的組件。具體的操作細節(jié)可以點擊下方鏈接查看AMD官方教程(注意,遇到報錯可能需要更新一下PIP和HTTPX到對應(yīng)版本)。
(https://community.amd.com/t5/ai/updated-how-to-running-optimized-automatic1111-stable-diffusion/ba-p/630252)

運行Stable Diffusion(Olive版)之后,在ONNX頁面下先下載原版模型,然后在Olive頁面中點選Optimize ONNX model,然后點擊Optimize model using Olive按鍵優(yōu)化模型,大約3分27秒即可完成優(yōu)化。

優(yōu)化完成之后,此時在主界面左上角即可選擇原版模型或Olive優(yōu)化模型進行出圖對比了。這里提醒大家在首次下載完ONNX原版模型之后備份一下,以免Olive優(yōu)化模型直接在原路徑上進行覆蓋,不方便多次對比。


那么Olive優(yōu)化模型之后RX 7900 XT出圖速度提升有多大呢?從圖上可以看到,我們選擇一次出兩批圖,每批三張,總共六張。優(yōu)化之前需要28.9秒完成,優(yōu)化之后僅需13秒,出圖速度提升幅度高達122%!可見優(yōu)化效果是非常明顯的。

實際上,如果RX 7900 XT是在Linux環(huán)境下使用ROCm平臺來運行 Stable Diffusion的話,出圖效率還有數(shù)倍的提升,所以專業(yè)用戶也可以關(guān)注一下Windows平臺的ROCm版Stable Diffusion(RX 7900 XT是完全支持ROCm的Runtime和HIP SDK的,RX 6750以下只支持Runtime),從這一點來講RX 7900 XT不但可以讓你立刻享受極高的AI性能,它也擁有極其深厚的“戰(zhàn)未來”潛力。
總結(jié):AIGC專業(yè)高效利器,RX 7900 XT性價比遙遙領(lǐng)先

從前面的分析可以看到,RX 7900 XT不但本身擁有旗艦級的算力,而且還擁有20GB超大顯存,超過了RTX 4080的16GB顯存,更大的顯存也更有利于AI出圖的分辨率和效率。同時,RX 7900 XT在顯存更大的情況下售價僅為RTX 4080的61%,性價比可以說是真的遙遙領(lǐng)先了。從Stable Diffusion的實測來看,在出圖數(shù)量增多的情況下,對顯存的需求確實是非常高的,RX 7900 XT的20GB大顯存正好可以發(fā)揮威力,在連續(xù)出圖的情況下也能保證圖片不出錯,同時也保障了出圖效率。此外,我們也可以看到,在使用Olive優(yōu)化模型之后,RX 7900 XT的出圖速度進一步實現(xiàn)了翻倍,相當(dāng)于也是給用戶帶來了免費的性能升級,將來Windows平臺有更加完善的ROCm版Stable Diffusion登場的話,RX 7900 XT更是可以如虎添翼,AI性能直接起飛。因此,對于有較高專業(yè)AIGC應(yīng)用需求而不是簡單出圖玩玩的專業(yè)用戶來講,RX 7900 XT可以說是非常適合他們的選擇。
此外,我們也選擇了兩套旗艦級AI電腦配置進行對比,其中AMD平臺采用了銳龍9 7950X與RX 7900 XT的組合,而Intel平臺則是酷睿i9 14900K與RTX 4080的組合。從總價可以看到,AMD這套配置擁有5350元的價格優(yōu)勢,同時顯存還多出4GB,不光在AIGC應(yīng)用中可以發(fā)揮強悍的性能,在其他生產(chǎn)力應(yīng)用中也有一流的表現(xiàn),屬于既全能性價比又高的方案。而Intel平臺這邊總價高出36%,性價比明顯落后,顯存也更小,在AI出圖或其他生產(chǎn)力應(yīng)用中不免受到更多限制。
總而言之,如果你需要經(jīng)常面對比較專業(yè)的AIGC應(yīng)用,特別看重超大顯存,同時也想享受極致的性價比,那么RX 7900 XT確實是非常值得優(yōu)先考慮的解決方案。