久久久人人人婷婷色东京热,久久精品aⅴ无码中文字字幕重口

您的位置:首頁 > 國內(nèi) >

全球熱頭條丨NVIDIA RTX 40系列顯卡Ai測評

2023-07-04 12:21:27 來源:PConline太平洋科技

在Ai繪畫領(lǐng)域火熱的前夕,我們針對15款NVIDIA顯卡進(jìn)行了一次針對StableDiffusion模型的生成時間測試


(資料圖片)

Ai生成

通過使用多模態(tài)的StableDiffusion測試,我們將充分挖掘這些顯卡的算力性能。并且,從個人玩家的角度出發(fā),我們將為你揭示哪款顯卡是你在Ai領(lǐng)域的最優(yōu)選擇。在接下來的評測中,我們將對40系顯卡家族的各成員進(jìn)行詳細(xì)介紹和性能測試,包括RTX4090、RTX4080、RTX4070、RTX4070Ti、RTX4060Ti和RTX4060,以及RTX3060。通過對比他們在StableDiffusion模型上的表現(xiàn),將為你提供關(guān)于顯卡性能和價(jià)格的綜合考量。

首先介紹一下測試背景與條件:隨著StableDiffusion上的模型與圖片生成算法的不斷豐富,我們采用了4個測試環(huán)節(jié)來進(jìn)行全面且多角度的顯卡Ai算力測試:

1.利用NVIDIA官方提供的“Ai房屋”測試,來生成符合官方數(shù)據(jù)的測試結(jié)果。

2.利用civitAi(一個Ai模型聚合網(wǎng)站)上火熱的Ai人像模型與圖片生成算法進(jìn)行一組模擬真實(shí)小姐姐的測試。

3.利用civitAi(一個Ai模型聚合網(wǎng)站)上火熱的Ai人像模型與圖片生成算法進(jìn)行一組模擬魔幻怪物小姐姐的測試。

4.針對第2個測試環(huán)節(jié)增加生成圖像的分辨率,盡量占用每一張顯卡的顯存,來觀察在極限顯存占用的情況下,各顯卡之間的表現(xiàn)。

首先還是先來看一下參賽選手們的“個人信息”匯總:

其中與Ai繪圖會高度相關(guān)的參數(shù),我們總結(jié)出了這幾點(diǎn),Ai生成圖像主要依賴于顯卡的并行計(jì)算能力。以下是幾個顯卡核心參數(shù)及其與Ai生成圖像之間的關(guān)系:

1. 顯卡流處理器數(shù)量(SM): 流處理器數(shù)量是顯卡內(nèi)部處理單元的數(shù)量。每個流處理器包含一定數(shù)量的CUDA核心、Tensor核心和其他處理資源。流處理器數(shù)量越多,顯卡并行處理任務(wù)的能力越強(qiáng),對Ai生成圖像的性能提高更明顯。

2. 顯卡CUDA內(nèi)核數(shù)量(CUDACores): CUDA核心是NVIDIA顯卡的基本處理單元,用于執(zhí)行并行計(jì)算任務(wù)。CUDA核心數(shù)量越多,顯卡的并行計(jì)算能力越強(qiáng),Ai生成圖像的速度也會相應(yīng)提高。

3. 顯卡Tensor內(nèi)核(TensorCores): Tensor核心是NVIDIA顯卡特有的處理單元,專為深度學(xué)習(xí)和Ai任務(wù)設(shè)計(jì)。它們可以高效地執(zhí)行矩陣乘法和累加運(yùn)算,這是深度學(xué)習(xí)中的核心計(jì)算操作。Tensor核心數(shù)量越多,顯卡在Ai生成圖像任務(wù)中的性能越優(yōu)秀。

*3060的Tensor核心為第三代,40系顯卡為第四代

4. 顯卡顯存容量、顯存位寬、顯存帶寬: 顯存容量對Ai生成圖像的影響取決于模型的大小和復(fù)雜度。顯存容量越大,可以處理的模型和數(shù)據(jù)越多。顯存位寬和顯存帶寬影響數(shù)據(jù)在顯卡內(nèi)部的傳輸速度。顯存位寬越寬、顯存帶寬越高,顯卡處理大型Ai任務(wù)的能力越強(qiáng)。

顯存容量

顯存位寬

5. L1緩存(MB): L1緩存位于每個流處理器(SM)內(nèi)部,離CUDA核心和Tensor核心非常近。它的訪問速度非??欤萘肯鄬^小。L1緩存主要用于存儲局部變量和線程間共享的數(shù)據(jù)。在Ai生成圖像任務(wù)中,高效的L1緩存可以提高處理速度,降低內(nèi)部數(shù)據(jù)傳輸延遲。

6. L2緩存(MB): L2緩存位于顯卡的全局內(nèi)部,所有SM共享。它的容量比L1緩存更大,但訪問速度相對較慢。L2緩存主要用于緩存全局內(nèi)存中的數(shù)據(jù),以減少顯存訪問延遲。對Ai生成圖像任務(wù)來說,高效的L2緩存可以提高數(shù)據(jù)處理速度,特別是在處理大型模型和數(shù)據(jù)集時。

L2緩存(MB)

不多說,我們進(jìn)入測試環(huán)節(jié),首先來個官方的開胃菜,畫圖的參數(shù)是:使用v2-1768-emapruned模型;768*768的尺寸;Steps:50;CFGscale:7.5,一組10張圖,每次繪畫3組,該測試能夠反應(yīng)絕大多數(shù)Ai繪圖的生成效果成績,尤其是在做一些工業(yè)Ai、實(shí)物生成的用途時。

第二組就是我們可愛的Ai小姐姐,我們使用了majicmixRealistic_v6模型,搭配FilmVelvia2Lora與修復(fù)眼睛、姿態(tài)的插件進(jìn)行了生成式繪圖。Steps:50,采集器:Euler,CFG:7.5,Seed:172450070,Size:1024x768,共生成1組,6張圖片,代表了絕大場景下的Ai模特(女友(誤))的生成場景。

第三組是體現(xiàn)Ai創(chuàng)意與耦合生成能力的魔女小姐姐,在關(guān)鍵詞中,我們使用了“龍角、血跡、邪惡、猙獰”等,生成效果非常令人滿意。使用了majicmixRealistic_v6模型,搭配FilmVelvia2Lora與修復(fù)眼睛、姿態(tài)的插件進(jìn)行了生成式繪圖。Steps:32,采樣器:DPM++2MKarras,CFG:7.5,Seed:2316746276,Size:1200x675,測試意義為更加普遍的DPM++2M采樣器(常用于復(fù)雜的人物模型生成)時的成績,共生成1組,6張圖片,與第二組相互對照。

第四組測試便是針對第2個測試環(huán)節(jié)增加生成圖像的分辨率,盡量占用每一張顯卡的顯存,來觀察在極限顯存占用的情況下,各顯卡之間的表現(xiàn)。同樣使用了majicmixRealistic_v6模型,搭配FilmVelvia2Lora與修復(fù)眼睛、姿態(tài)的插件進(jìn)行了生成式繪圖。Steps:50,采集器:Euler,CFG:7.5,Seed:172450070,Size:1800x1800,共生成1組,6張圖片。此測試主要驗(yàn)證顯存與Ai生成圖像效率之間的關(guān)系,是否顯存越大必然越快。

由于大多數(shù)Ai模型訓(xùn)練使用512x512圖像,生成超高分辨率圖像時,Ai模型對資源的需求會呈指數(shù)級增長,需要消耗大量顯卡資源,特別是顯存資源。同時,圖像會大量失真,產(chǎn)生怪異效果,因此不建議生成超高分辨率Ai圖像。

在占滿了每一張顯卡的顯存情況下(包括擁有24GB顯存的RTX4090),這6張圖片的生成時間如下:

從測試結(jié)果可以解答許多網(wǎng)友的誤解,即Ai生成僅與顯存相關(guān)(挖礦的想法)。測試結(jié)果顯示,盡管RTX3060的顯存(12GB/192位)明顯高于RTX4060(8GB/128位),但在顯存飽和后的生成時間上,兩者之間仍有約35%的差距??梢姡塗ensor核心的RTX40系列顯卡,盡管顯存上處于劣勢,性能表現(xiàn)仍遠(yuǎn)超前代。

測試結(jié)果顯示,在真實(shí)場景下的Ai生成圖像任務(wù)中,40系顯卡表現(xiàn)出明顯的階梯式成績分布,與各卡的CUDA內(nèi)核數(shù)及Tensor內(nèi)核數(shù)密切相關(guān)。尤其是高端且價(jià)格相對友好的RTX4070及RTX4070Ti,其性能表現(xiàn)令人印象深刻。

看到此處,相信大家已對40系顯卡在Ai繪圖算力方面有初步判斷。那么,作為普通用戶,我們會推薦哪款卡?哪款最具“Ai性價(jià)比”?我們選擇了某知名顯卡品牌的40系全系列定價(jià),并結(jié)合常規(guī)Ai人像繪圖的成績,計(jì)算“Ai算力定價(jià)”。由于RTX3060僅作為對照組,我們不會進(jìn)行推薦,僅參考40系列的成績與價(jià)格。

我們假設(shè)RTX4090在短發(fā)小姐姐Ai繪圖中的35.46秒為100%,來看其他顯卡在Ai繪畫時需要RTX4090的多少倍:

我們可以通過比較顯卡的性價(jià)比來衡量它們在Ai繪圖任務(wù)上的表現(xiàn)。為了計(jì)算性價(jià)比,我們可以使用以下公式:Ai性價(jià)比=顯卡算力指數(shù)x顯卡價(jià)格。以RTX4090為基準(zhǔn),我們可以計(jì)算其他顯卡在相同算力下的性價(jià)比。在這個例子中,RTX4090算力性價(jià)比=100%算力指數(shù)x13999元。接下來,我們可以將其他顯卡的性價(jià)比與RTX4090的性價(jià)比進(jìn)行比較。這樣,我們就可以得出一個各個顯卡相對于RTX4090性價(jià)比的結(jié)論,從而可以更好地判斷哪款顯卡在Ai繪圖任務(wù)上性價(jià)比更高。

可見,相對于RTX4090來說, RTX4070Ti的純算力性價(jià)比 是較高的,也是在算力轉(zhuǎn)化后最為接近RTX4090的一張顯卡,那單純從算力的性價(jià)比角度出發(fā),這張卡是除了RTX4090外的最佳選擇,而如果屏幕面前的你只是想要在游戲之余,偶爾跑跑Ai,那么我認(rèn)為RTX4070會是你的最佳選擇,一組6張的精致人像圖片75秒的運(yùn)算時間在大多數(shù)人的可忍耐范圍之內(nèi),而RTX4060這樣超過2分鐘的選手,可能在等待的過程中會有些無聊了。

總的來說,考慮Ai繪圖場景下的應(yīng)用, 我們推薦RTX4070或RTX4070Ti這兩款顯卡 。

如今顯卡的多功能性是由于技術(shù)發(fā)展和市場需求共同推動的。在過去的幾十年里,計(jì)算機(jī)圖形學(xué)的研究取得了重要突破,顯卡硬件的性能也得到了顯著提升。隨著GPU的計(jì)算能力越來越強(qiáng)大,顯卡逐漸從單純的渲染圖形發(fā)展為具備廣泛計(jì)算能力的硬件平臺。此外,各行各業(yè)對高性能計(jì)算、Ai等領(lǐng)域的需求不斷增長,顯卡廠商也紛紛投入研發(fā),使顯卡更好地適應(yīng)這些需求。

顯卡之所以具有多功能性,關(guān)鍵在于GPU具備強(qiáng)大的并行計(jì)算能力和通用計(jì)算能力。GPU最初設(shè)計(jì)用于處理計(jì)算機(jī)圖形,需要同時處理大量像素和頂點(diǎn)。為了高效執(zhí)行這些任務(wù),GPU采用了高度并行的架構(gòu)。這使得GPU在處理其他涉及大量并行計(jì)算的任務(wù)時,也能發(fā)揮出強(qiáng)大的性能。

在未來,隨著GPU計(jì)算能力破繭成蝶般的蛻變,顯卡在各個領(lǐng)域的應(yīng)用將猶如波濤般洶涌澎湃。短短的數(shù)年內(nèi)我們就可以預(yù)見顯卡將在高性能計(jì)算、Ai繪圖、Ai生成計(jì)算等多重功能的舞臺上,如繁星閃爍般綻放越來越耀眼的光芒。

關(guān)鍵詞:

參與評論