今年可以算得上是AIGC應(yīng)用爆發(fā)之年了,特別是使用Stable Diffusion本地出圖,幾乎成了玩家必備AI應(yīng)用。AMD旗下采用RDNA3架構(gòu)的RX 7000系列顯卡不但擁有出色的AI算力,其中的RX 7900系列還配備了超大的顯存,特別適合用來(lái)AI出圖。當(dāng)然,可能多數(shù)玩家還是在Windows系統(tǒng)下以DirectML模式驅(qū)動(dòng)RX 7000顯卡出圖,實(shí)際上,如果用上AMD ROCm模式,RX 7000顯卡在Stable Diffusion中的出圖效率還會(huì)大幅提升。這里我們就用備受玩家追捧的大顯存高性?xún)r(jià)比出圖利器RX 7900 XT為大家實(shí)戰(zhàn)體驗(yàn)一下ROCm的威力。
AMD ROCm是什么?


總的來(lái)說(shuō),AMD ROCm(Radeon Open Computing platforM:Radeon開(kāi)放計(jì)算平臺(tái))是一個(gè)開(kāi)放式軟件堆棧,包含了多種編程模型、工具、編譯器、庫(kù)和運(yùn)行時(shí),用于開(kāi)發(fā)面向AMD GPU的AI與HPC解決方案。AMD ROCm 軟件提供了針對(duì)各種 AI 工作負(fù)載的優(yōu)化方案,適用于大型語(yǔ)言模型 (LLM)、圖像/視頻檢測(cè)與識(shí)別、生命科學(xué)與藥物研發(fā)、自動(dòng)駕駛、機(jī)器人等領(lǐng)域,并支持更廣泛的包括開(kāi)放式框架、模型和工具在內(nèi)的 AI 軟件生態(tài)系統(tǒng)。簡(jiǎn)單點(diǎn)說(shuō),ROCm就是AMD的一個(gè)軟件平臺(tái),用來(lái)支持Radeon GPU計(jì)算。在使用Radeon GPU的時(shí)候,編程模型用的是HIP或者OpenCL,而運(yùn)行環(huán)境則是ROCm。既然是AMD自己專(zhuān)為Radeon GPU打造的軟件平臺(tái),那么ROCm的效率比通用型的DirectML高也是理所當(dāng)然了,所以用RX 7000顯卡出圖的朋友,我們強(qiáng)烈推薦使用ROCm模式。ROCm For Windows早在去年就已經(jīng)推出,目前支持設(shè)備的型號(hào)在不斷增加中(從上面的圖中可以看到RX 6800及以上都是完全支持HIP SDK和運(yùn)行時(shí)的),不過(guò)如果玩家想要最成熟的體驗(yàn),可以在基于Linux的系統(tǒng)下使用ROCm。
RDNA3架構(gòu)加上20GB超大顯存,RX 7900 XT特別適合AIGC

作為RX 7000系列的次旗艦,RX 7900 XT的定位稱(chēng)得上是性?xún)r(jià)比十分突出的高端甜品,尤其在AIGC方面更是具備極高的競(jìng)爭(zhēng)力。RX 7900 XT采用RDNA3架構(gòu),總面積與上代RX 6950 XT相同,但晶體管達(dá)到上代的2.15倍以上,因此能效表現(xiàn)相對(duì)上代RDNA2大幅提升。此外,RDNA3架構(gòu)相對(duì)上代新增了AI加速器單元,無(wú)限緩存也升級(jí)到了第二代,等效顯存帶寬是RX 6950 XT的1.67倍,由此也帶來(lái)了更為強(qiáng)悍的數(shù)據(jù)吞吐能力。
RX 7900 XT之所以被稱(chēng)為AI利器,一方面是它擁有強(qiáng)悍的算力,單精度峰值性能高達(dá)52 TFLOPS,半精度峰值性能高達(dá)103 TFLOPS,分別是RX 6950 XT的2.2倍和2.18,算力直接決定了AI計(jì)算的速度,而這方面RX 7900 XT無(wú)疑是一流水平;另一方面就是它擁有320 bit位寬、容量高達(dá)20 GB的GDDR6顯存,這對(duì)于AI出圖來(lái)講就意味著高分辨率出圖適應(yīng)性更好。
此外,目前高端顯卡市場(chǎng)中,16GB顯存的RTX 4080售價(jià)接近八千元,再往上就是天價(jià)的RTX 4090,基本上和性?xún)r(jià)比已經(jīng)沒(méi)什么關(guān)系。相比之下,擁有20GB超大顯存的RX 7900 XT僅需5000元出頭就顯得性?xún)r(jià)比爆棚,加上ROCm更是能讓出圖效率暴增,特別適合追求高效出圖的玩家。
接下來(lái)就讓我們一起來(lái)看看RX 7900 XT在ROCm加持下、在Stable Diffusion中的出圖表現(xiàn)吧。
實(shí)戰(zhàn)測(cè)試:RX 7900 XT + ROCm,出圖效率起飛
測(cè)試平臺(tái)
處理器:AMD銳龍9 7900X
內(nèi)存:金士頓Fury DDR5 6000 16GB×2
主板:華碩TUF GAMING B650M-PLUS WIFI 重炮手
顯卡:AMD Radeon RX 7900 XT
硬盤(pán):WD_BLACK SN850X 2TB
電源:ROG雷神1200W
操作系統(tǒng):Ubuntu 22.04.3 LTS


▲安裝Ubuntu 22.04.3 LTS操作系統(tǒng)與Stable Diffusion Webui

▲可以看到ROCm模組的信息

▲生成5張圖耗時(shí)13.4秒
打開(kāi)Stable Diffusion之后,我們?cè)O(shè)置迭代步數(shù)20、Euler a采樣、512×512分辨率、CFG為7,模型選用麥橘唯美人物模型V1.0來(lái)進(jìn)行文生圖。從測(cè)試來(lái)看,RX 7900 XT完成的時(shí)間為13.4秒,相比之前在Windows 11系統(tǒng)+DirectML模式下同樣參數(shù)設(shè)置的22秒來(lái)講速度暴增了63%之多。

▲生成10張圖耗時(shí)26.9秒
讓我們?cè)龠M(jìn)一步增加計(jì)算壓力,一次生成10張圖,此時(shí)RX 7900 XT也是全力輸出,完成的時(shí)間為26.9秒,相比Windows 11下DirectML模式的47秒更是快了75%,可見(jiàn)出圖數(shù)量越多,ROCm相對(duì)于DirectML的效率優(yōu)勢(shì)也越明顯。

▲出圖的時(shí)候啟用細(xì)節(jié)修復(fù)來(lái)修復(fù)臉部,5張圖的完成時(shí)間為20.3秒

▲ROCm支持下,即便是開(kāi)啟細(xì)節(jié)修復(fù),出圖速度也比DirectML模式快近10%
為了進(jìn)一步提升人物圖片臉部的出圖效果,我們?cè)诔鰣D的時(shí)候勾選細(xì)節(jié)修復(fù),選擇修復(fù)模型為mediapipe_face_full,此時(shí)完成5張圖的時(shí)間為20.3秒,也比Windows 11的DirectML模式不開(kāi)細(xì)節(jié)修復(fù)快了接近10%,而且畫(huà)面效果更好,臉部沒(méi)有BUG。

由此可見(jiàn),在ROCm的加持之下,RX 7900 XT在Stable Diffusion中的出圖效率確實(shí)得到了極大的提升,而RX 7900 XT超高的出圖速度也讓我們十分驚喜。值得一提的是,目前Windows版的ROCm其實(shí)已經(jīng)實(shí)裝了,并且對(duì)RX 7000提供了完備的支持,因此Windows平臺(tái)的RX 7000用戶(hù)也可以享受到這一特性了。綜上所述,如果你要選擇一塊具備20GB超大顯存的本地AI出圖高性?xún)r(jià)比利器,那么RX 7900 XT確實(shí)是當(dāng)下特備值得優(yōu)先選擇的產(chǎn)品。
總結(jié):AIGC大顯存高效利器,RX 7900 XT性?xún)r(jià)比無(wú)敵手

從前面的分析可以看到,RX 7900 XT不但本身?yè)碛袠O強(qiáng)的算力,而且還擁有20GB超大顯存,超過(guò)了RTX 4080的16GB顯存,很顯然更大的顯存也更有利于提升AI出圖的分辨率和效率。此外,RX 7900 XT在顯存更大的情況下售價(jià)僅約為RTX 4080的61%,性?xún)r(jià)比堪稱(chēng)完勝,在高端AIGC顯卡中可以說(shuō)沒(méi)有敵手。從Stable Diffusion ROCm版的實(shí)測(cè)來(lái)看,RX 7900 XT的出圖效率遠(yuǎn)遠(yuǎn)超過(guò)DirectML模式。因此,對(duì)于有較高專(zhuān)業(yè)AIGC應(yīng)用需求的用戶(hù)來(lái)講,RX 7900 XT可以說(shuō)是非常適合的選擇。
實(shí)際的AIGC裝機(jī)方面,從我們列出的這兩套旗艦配置可以看到,AMD平臺(tái)采用了銳龍9 7950X與RX 7900 XT的組合,而Intel平臺(tái)則是酷睿i9 14900K與RTX 4080的組合。從總價(jià)可以看到,AMD這套配置擁有5350元的價(jià)格優(yōu)勢(shì),同時(shí)顯存還多出4GB,不光在AIGC應(yīng)用中可以發(fā)揮強(qiáng)悍的性能,在其他生產(chǎn)力應(yīng)用中也有一流的表現(xiàn),屬于既全能性?xún)r(jià)比又高的方案。而Intel平臺(tái)這邊總價(jià)高出36%,性?xún)r(jià)比明顯落后,顯存也更小,在AI出圖或其他生產(chǎn)力應(yīng)用中不免受到更多限制。
總而言之,如果你需要經(jīng)常面對(duì)比較專(zhuān)業(yè)的AIGC應(yīng)用,特別看重超大顯存,同時(shí)也想享受極致的性?xún)r(jià)比,那么RX 7900 XT確實(shí)是非常值得優(yōu)先考慮的解決方案,在ROCm支持下甚至還可以進(jìn)一步獲得巨大的AI計(jì)算效率提升。