AMD RX 7900XT AI性能提升超乎想象

首頁>產(chǎn)品評測>>綜合>>>正文

AMD RX 7900XT AI性能提升超乎想象

對于AIGC設(shè)計師用戶和AI出圖愛好者來說，大顯存高端顯卡當(dāng)然是最佳的高效工具。而目前由于眾所周知的原因，部分高端顯卡的價格被一炒再炒，大大增加了這類用戶的裝機成本。實際上，大家不要忘了AMD旗下的Radeon RX 7900系列其實在AIGC方面的性能也是非常強悍的，特別在是時下熱門的AI出圖應(yīng)用中也有十分出色的表現(xiàn)。再加上AMD顯卡的價格一直都穩(wěn)中有降，因此Radeon RX 7900系列可以說是性價比非常高的AI出圖利器，其中擁有20GB超大顯存的Radeon RX 7900 XT更是爆款甜品。

RDNA3架構(gòu)與超大顯存加持，RX 7900 XT天生適合AIGC

RX 7900 XT采用了小芯片設(shè)計的RDNA3架構(gòu)，GCD芯片使用5nm工藝，MCD部分則使用6nm工藝，總面積與上代RX 6950 XT相同，但晶體管達到上代的2.15倍以上，因此能效表現(xiàn)相對上代RDNA2大幅提升。此外，RDNA3架構(gòu)相對上代新增了AI加速器單元，無限緩存也升級到了第二代，等效顯存帶寬是RX 6950 XT的1.67倍，由此也帶來了更為強悍的數(shù)據(jù)吞吐能力。

之所以說RX 7900 XT非常適合AIGC應(yīng)用，一方面就是它擁有強悍的算力，單精度峰值性能高達52 TFLOPS，半精度峰值性能高達103 TFLOPS，分別是RX 6950 XT的2.2倍和2.18，算力直接決定了AI計算的速度，而這方面RX 7900 XT無疑是第一梯隊的水平；另一方面就是它擁有320 bit位寬、容量高達20 GB的GDDR6顯存，這對于AI出圖來講就意味著支持更高的圖片分辨率上限，設(shè)計師可以直出大圖而不用去花時間高清重建。這兩大優(yōu)勢中后者尤其重要，也是小顯存中低端顯卡無法比擬的。

此外，放眼高端顯卡市場，同代競品16GB顯存的RTX 4080售價已經(jīng)超過八千元，再往上就是幾萬元天價且買不到的24GB顯存RTX 4090，已經(jīng)和性價比沒什么關(guān)系了。相比之下，擁有20GB超大顯存的RX 7900 XT僅需5000元出頭真的可以說是性價比爆棚的AIGC利器，再加上現(xiàn)在A卡還可以通過微軟Olive工具來優(yōu)化模型提升出圖速度，所以它特別適合需求比基礎(chǔ)AI玩家更高更專業(yè)的AIGC設(shè)計師用戶和AI深度愛好者。

接下來就讓我們一起來看看RX 7900 XT在熱門本地AI出圖工具Stable Diffusion中的性能表現(xiàn)吧。

Stable Diffusion出圖實測：RX 7900 XT大顯存尤其搶眼

測試平臺

顯卡：AMD Radeon RX 7900 XT

處理器：AMD銳龍5 7600X

內(nèi)存：阿斯加特DDR5 7200 16GB×2

主板：華碩TUF GAMING A620M-PLUS

硬盤：WD_BLACK SN850X 2TB

電源：ROG雷神THOR 1600W

操作系統(tǒng)：Windows 11專業(yè)版23H2

屏幕截圖 2023-12-06 091432.png

Stable Diffusion的Windows版早就已經(jīng)添加了對DirectML的支持，因此AMD顯卡也可以在Windows 10/11系統(tǒng)中實現(xiàn)對它的硬件加速。原版的Stable Diffusion環(huán)境配置和各種設(shè)定比較復(fù)雜（主要是受網(wǎng)絡(luò)連接的影響），嫌麻煩也可以選用各位AI大佬制作的整合包，本次我們測試也選用了B站UP主秋葉制作的整合包，經(jīng)過簡單的設(shè)置后即可在高級選項中選擇實用RX 7900 XT以DirectML的模式進行加速。此外，由于RX 7900 XT擁有20GB大顯存，所以我們可以直接選擇12GB以上顯存的模式實現(xiàn)效率最大化。

實測出圖時，我們設(shè)置迭代步數(shù)20、Euler采樣a、512×512分辨率、CFG為7，模型選用麥橘唯美人物模型。從圖中可以看到，在一批次出五張圖的設(shè)定下，20GB顯存已經(jīng)完全用滿，此時RX 7900 XT已經(jīng)做到了全速輸出，完成時間大約為22秒。

讓我們再進一步增加計算壓力，一次生成10張圖，此時RX 7900 XT也處于滿載輸出狀態(tài)，20GB顯存占滿也并沒有明顯拖慢速度，完成的時間大約為47秒，略高于5張圖22秒的兩倍。我們也用純處理器試著出了一張圖用作參考，以測試平臺的6核處理器來看，出一張圖大約需要3分18秒，而RX 7900 XT出一張圖大約費時6.8秒，差不多快了28倍，很顯然要做AIGC，高性能顯卡確實是首選方案。

從Stable Diffusion的出圖測試來看，在一次生成多張或生成更高分辨率的圖片時，Stable Diffusion對顯存的占用是非常高的，吃滿20GB顯存也并不稀奇，而顯存低于20GB的話，就可能會因為爆顯存影響效率或無法正常出圖。因此，像是AIGC設(shè)計師或者是深度AI玩家，擁有20GB大顯存且自身算力也過硬的RX 7900 XT確實是上佳之選。

支持Olive模型優(yōu)化，RX 7900 XT的AI出圖性能再度暴增

我們知道，在幾個月前，AMD和微軟合作優(yōu)化了Microsoft Olive路徑，可以把基本模型從PyTorch轉(zhuǎn)換為ONNX，從而巨幅提升AMD顯卡在文生圖方面的計算效率。目前經(jīng)過多個版本的迭代，AMD顯卡使用Olive優(yōu)化模型的設(shè)置也變得更加簡單，普通玩家也可以輕松上手了，接下來就讓我們實際體驗一下。

測試環(huán)境依然是在Windows平臺下，我們需要安裝Git For Windows、Python For Windows和Miniconda For Windows，這些去官網(wǎng)下載安裝就好，記得裝完之后確保它們加入了系統(tǒng)變量Path。接下來就是配置虛擬環(huán)境、安裝Olive、克隆Stable Diffusion到本地，啟動Stable Diffusion自動下載需要的組件。具體的操作細節(jié)可以點擊下方鏈接查看AMD官方教程（注意，遇到報錯可能需要更新一下PIP和HTTPX到對應(yīng)版本）。

（https://community.amd.com/t5/ai/updated-how-to-running-optimized-automatic1111-stable-diffusion/ba-p/630252）

屏幕截圖 2023-12-06 131134.png

運行Stable Diffusion（Olive版）之后，在ONNX頁面下先下載原版模型，然后在Olive頁面中點選Optimize ONNX model，然后點擊Optimize model using Olive按鍵優(yōu)化模型，大約3分27秒即可完成優(yōu)化。

模型選擇.jpg

優(yōu)化完成之后，此時在主界面左上角即可選擇原版模型或Olive優(yōu)化模型進行出圖對比了。這里提醒大家在首次下載完ONNX原版模型之后備份一下，以免Olive優(yōu)化模型直接在原路徑上進行覆蓋，不方便多次對比。

屏幕截圖 2023-12-06 131239.png

那么Olive優(yōu)化模型之后RX 7900 XT出圖速度提升有多大呢？從圖上可以看到，我們選擇一次出兩批圖，每批三張，總共六張。優(yōu)化之前需要28.9秒完成，優(yōu)化之后僅需13秒，出圖速度提升幅度高達122%！可見優(yōu)化效果是非常明顯的。

實際上，如果RX 7900 XT是在Linux環(huán)境下使用ROCm平臺來運行 Stable Diffusion的話，出圖效率還有數(shù)倍的提升，所以專業(yè)用戶也可以關(guān)注一下Windows平臺的ROCm版Stable Diffusion（RX 7900 XT是完全支持ROCm的Runtime和HIP SDK的，RX 6750以下只支持Runtime），從這一點來講RX 7900 XT不但可以讓你立刻享受極高的AI性能，它也擁有極其深厚的“戰(zhàn)未來”潛力。

總結(jié)：AIGC專業(yè)高效利器，RX 7900 XT性價比遙遙領(lǐng)先

從前面的分析可以看到，RX 7900 XT不但本身擁有旗艦級的算力，而且還擁有20GB超大顯存，超過了RTX 4080的16GB顯存，更大的顯存也更有利于AI出圖的分辨率和效率。同時，RX 7900 XT在顯存更大的情況下售價僅為RTX 4080的61%，性價比可以說是真的遙遙領(lǐng)先了。從Stable Diffusion的實測來看，在出圖數(shù)量增多的情況下，對顯存的需求確實是非常高的，RX 7900 XT的20GB大顯存正好可以發(fā)揮威力，在連續(xù)出圖的情況下也能保證圖片不出錯，同時也保障了出圖效率。此外，我們也可以看到，在使用Olive優(yōu)化模型之后，RX 7900 XT的出圖速度進一步實現(xiàn)了翻倍，相當(dāng)于也是給用戶帶來了免費的性能升級，將來Windows平臺有更加完善的ROCm版Stable Diffusion登場的話，RX 7900 XT更是可以如虎添翼，AI性能直接起飛。因此，對于有較高專業(yè)AIGC應(yīng)用需求而不是簡單出圖玩玩的專業(yè)用戶來講，RX 7900 XT可以說是非常適合他們的選擇。

此外，我們也選擇了兩套旗艦級AI電腦配置進行對比，其中AMD平臺采用了銳龍9 7950X與RX 7900 XT的組合，而Intel平臺則是酷睿i9 14900K與RTX 4080的組合。從總價可以看到，AMD這套配置擁有5350元的價格優(yōu)勢，同時顯存還多出4GB，不光在AIGC應(yīng)用中可以發(fā)揮強悍的性能，在其他生產(chǎn)力應(yīng)用中也有一流的表現(xiàn)，屬于既全能性價比又高的方案。而Intel平臺這邊總價高出36%，性價比明顯落后，顯存也更小，在AI出圖或其他生產(chǎn)力應(yīng)用中不免受到更多限制。

總而言之，如果你需要經(jīng)常面對比較專業(yè)的AIGC應(yīng)用，特別看重超大顯存，同時也想享受極致的性價比，那么RX 7900 XT確實是非常值得優(yōu)先考慮的解決方案。