近日,NVIDIA對圖靈顯卡的直播推流進行了一次升級,主要特點就是讓直播顯得更加流暢,畫質更加清晰,不過這次的優化升級主要針對的是圖靈架構顯卡。
那麽,使用NVIDIA的圖靈顯卡(GTX 16和RTX 20系列)在直播中會得到怎樣的提升?它們較原版又有怎樣的表現?讓我們一起來看下吧。
NVIDIA在去年年底的時候正式發布了圖靈系列顯卡,新的架構確實讓人眼前一亮,同時相比普通的GPU架構。圖靈系列顯卡還加入了2個核心單元——1個是用於計算“實時光線追蹤”的RT Core,另一個則是增強顯卡人工智能學習的Tensor Core。
兩個功能一個可以讓顯卡變得更“聰明”,一個可以在運行“實時光線追蹤”技術時能夠為顯卡輔助計算包圍盒分類以及射線和三角求交。
簡單的介紹了現有圖靈架構,那麽再來說下現有直播推流方式,我們常見的直播推流方式有CPU編碼(H.264或H.265),不可否認的是,CPU編碼是目前來講畫質最為清晰的一套編碼方案。當然,也是最佔用電腦性能的一套方案,它通常會大量佔用高規格、高核心數量的處理器性能,使得電腦性能的發揮會整體下降一個層次。
事實上,這在普通娛樂主播方面還算好,但是要直播遊戲,甚至是繪圖、視頻編輯,那麽其程序本身對處理器性能的要求就非常高,所以選擇CPU編碼模式,除非是非常好的處理器,否則性能的下降不僅會影響自身的表現,也會影響觀眾的體驗。
為了防止這一題問題的發生,解決CPU壓力的問題,NVIDIA推出的CUDA編碼模式,其功能是使用NVENC調用CUDA核心,在處理圖像性能的時候同時也對視頻進行編碼,這樣使得顯卡在輸出源畫質信號的同時像推流軟體再輸出一份“簡化版”的。也因此,通過圖形顯卡來處理圖形,會比處理器處理圖形更有速度方面的優勢。並且相較於CPU編碼,這個速度是真的提升了好多。
但由於是簡化版,所以在顯示畫質方面,會較CPU編碼差了許多。
在之前大家會在畫質和速度方面進行糾結——要麽選擇CPU編碼,畫質好但是會大幅降低系統性能和遊戲運行速度。要麽選擇NVIDIA CUDA編碼,畫質會不如CPU編碼但是只會小幅度降低系統性能和遊戲運行速度。
新一代的NVIDIA編碼器主要是針對圖靈架構的,其目標顯卡以GTX 16系和RTX 20系列顯卡,主要作用是通過Tensor Core(人工智能核心)來輔助CUDA進行圖形、圖像處理。
雖然同樣是進行圖像處理,但是較原有的NVENC,增加了輔助計算核心可以使顯卡在運行遊戲並進行更高效率的圖像編碼處理。
根據NVIDIA的官方接招,新的模式會使整體的處理性能比原有的帕斯卡架構還要提高15%,也因此會有更加富裕的經歷去做圖形質量的優化。
總之就是一句話,比以前的NV編碼圖像更好了,直播佔用率性能也下降了。
那麽,它的畫質提升了多少,佔用率又下降了多少?就讓我們一起來測試下吧!
測試平台介紹
首先介紹下本次測試所使用的平台,測試平台使用的是Intel的頂級處理器i9-9900K。然後是選擇了微星的Z390 Gaming Pro Carbon AC主機板。此外,我們選擇了2根海盜船的白金統治者8GB DDR4-3600記憶體,組成了16GB的雙通道模式。
整體使用的測試平台如上圖所示,為了達到最佳效果我們使用的是Intel的頂級處理器和NVIDIA的圖靈架構次旗艦級顯卡以及帕斯卡架構旗艦級顯卡。
MSI Geforce RTX 2080 8G DUKE暗黑龍爵顯卡。
微星 GeForce GTX 1080 Ti 11G DUKE 暗黑龍爵顯卡。
測試使用到的顯卡為微星的RTX 2080暗黑龍爵,同時我們的對比顯卡為微星的GTX 1080 Ti暗黑龍爵。兩款顯卡中,RTX 2080為圖靈顯卡的次旗艦級水準,GTX 1080 Ti則是帕斯卡的旗艦水準。兩者在性能方面相差並不算太多。
使用的主機板是來自微星的Z390 Gaming Pro Carbon AC主機板,又稱暗黑主機板,該主機板主要特點是採用了雙8Pin CPU輔助供電設計,能夠為超頻玩家帶來更加穩定的CPU供電。
使用到的記憶體為海盜船的白金統治者RGB,其頻率為DDR4-3600,兩條8GB組成了共計16GB的雙通道模式,其時序為16-18-18-36。
使用到的電源為海盜船的AX1000,這是一款鈦金認證的全模組電源,也是海盜船的次旗艦級產品。
測試遊戲及設置介紹:
本次測試使用遊戲的是《古墓奇兵:暗影》這款自帶Benchmark程序的遊戲,並且該遊戲支持“實時光線追蹤”技術,所以我們會對它來進行更加詳細的測試。
同時Benchmark的特點就是測試場景統一,重複性比較強,而《古墓奇兵:暗影》這款遊戲選擇了3個場景來進行測試,所以在測試效果方面會比較全面一些。
在測試古墓奇兵的時候,我們統一使用的是1920*1080分辨率(比較遺憾的是目前國內絕大多數直播平台都不支持2K以及更高分辨率)。採用的是時間抗鋸齒模式。
畫質方面我們使用的是系統默認的“最高”畫質,僅將預設值設置為“最高”其它一概不動。
“虎牙直播”軟體設置介紹:
本次測試使用的是“虎牙”直播平台(因為鬥魚想要達到藍光直播效果需要達到一定條件),而虎牙直播則沒有這個限制(我們需要通過另一台機器來對直播內容進行截圖,對比下整體效果)。
在“虎牙直播”軟體的上邊,可以看到性能設置欄中的編碼設置分為自動配置(默認)、CPU H.264編碼、NVIDIA H.264硬體編碼(降低CPU性能)以及NVIDIA H.265硬體編碼(限NVIDIA950及以上顯卡)和CPU H.265編碼。
我們的測試會分為3個部分,使用CPU H.265編碼以及NVIDIA H.264硬體編碼和NVIDIA H.265硬體編碼。
不過值得一提的是,雖然虎牙的NVIDIA H.265硬體編碼後邊備注是(限950及以上顯卡),但是經過測試,使用非圖靈顯卡會出現直播軟體崩潰的情況(使用GTX 16系列顯卡和RTX 20系列顯卡則不會出現這個問題),所以在經過測試和虎牙客服進行溝通後我們得出結果——目前使用帕斯卡架構的顯卡是無法開啟NVIDIA H.265硬體編碼進行直播的。
除了自身測試之外,“虎牙”客服也對此做了明確的確認,並非個人原因導致。
因此主要的測試項目為:
1,微星RTX 2080暗黑龍爵顯卡在開啟默認“最高”畫質下, CPU H.265編碼、NVIDIA H.265硬體編碼以及NVIDIA H.264硬體編碼下的Benchmark跑分測試。
2,微星GTX 1080 Ti暗黑龍爵顯卡在開啟默認“最高”畫質下, CPU H.265編碼以及NVIDIA H.264硬體編碼下的Benchmark跑分測試(取消了、NVIDIA H.265硬體編碼)。
當然,考慮到部分主播在直播的過程中有開啟錄像功能的習慣,所以以上兩項、我們分別開啟錄像和關閉錄像功能對其進行了測試。因此,我們在兩項測試中均加入了正常狀態的測試幀數,以做對比使用。
三種編碼模式的流暢度及畫質對比:
首先對比的是3種不同編碼下的觀眾界面,經過測試,系統推薦我們使用虎牙直播的藍光4M畫質來進行播放。
同時另外一台機器開啟虎牙客戶端然後使用藍光4M清晰度來進行全屏觀看,並使用錄屏軟體記錄下直播的畫面。
測試分為CPU H.265編碼、NVIDIA H.265硬體編碼以及NVIDIA H.264硬體編碼對比。
測試使用的顯卡均為RTX 2080。
通過對比,我們不難發現,其實NVIDIA H.265硬體編碼在畫質方面已經和CPU H.265沒有多少區別了,甚至在上邊的對比中玉米細節的表現已經超越了CPU的H.265編碼。不過相比之下,NVIDIA H.264偶爾在細節方面還是有一點欠缺。
可以說單論畫質而言,使用NVIDIA顯卡進行編碼並不會遜色於CPU編碼的效果,那麽在遊戲運行速度方面又是如何呢?
幀數對比:
在之前就說過,我們考慮到有些主播們在進行直播的同時還會開啟錄像功能,以方便後期剪輯同時在視頻網站上傳。所以我們下邊下邊的測試分別是針對開啟錄像和未開啟錄像,然後使用默認最高畫質來進行三種狀態的對比。
注:上圖中對比正常幀數就是普通跑Benchmark,並沒有開啟錄像功能。
首先是開啟錄像的測試成績對比,首先可以確定的是無論開啟哪種編碼模式來進行直播,都會對遊戲有較大的損失在三者的表現中,原有的NVIDIA H.264硬體編碼速度最快。其次是新加入的NVIDIA H.265硬體編碼,僅比原有NVIDIA H.264硬體編碼慢了一點。
而CPU的H.265硬體編碼對性能的需求最高,會導致嚴重降低幀數。
但由於新的NVIDIA H.265硬體編碼對GTX 10系帕斯卡顯卡的兼容度比較差,所以我們沒有測試GTX 1080 Ti下的NVIDIA H.265硬體編碼效果。
然後是關閉錄像功能後的性能對比測試,可以發現在直播過程中開啟錄像功能確實是會對遊戲運行速度造成一定的影響。
而在關閉錄像功能後可以發現,在使用RTX 2080暗黑龍爵顯卡進行直播時NVIDIA H.265硬體編碼以及H.265硬體編碼都保持了相同的104幀。
當然最低的仍然是CPU H.265編碼,僅有100幀。
而在GTX 1080 Ti方面,使用NVIDIA H.264編碼的效果則隻比CPU H.265編碼多了1幀而已,其提升效果並不明顯。
測試總結:
為了方便大家觀看,我們最終還是列出一個測試總結來方便大家觀看。
1,CPU H.265編碼好用嗎?
答:它是H.264編碼的升級,其特點就是比CPU H.264改善了碼流、編碼的質量,比CPU H.264編碼佔用系統資源更少。不過由於它的CPU進行編碼處理,所以佔用系統資源越多(如開啟錄像)就會越影響到它的性能,CPU越高端,所造成的影響越小。
若在僅開啟直播軟體進行直播的情況下,使用i9-9900K處理器,它甚至比NVIDIA H.264 硬體編碼僅低了一幀,但畫質卻有所提升。
而在開啟直播和錄像的情況下,i9-9900K也使得H.265較NVIDIA H.264編碼低了7幀(8%左右)。所以如果你的CPU比較強大,那麽如果是非圖靈架構的顯卡,使用CPU H.265編碼會進行直播會比較好。
2,NVIDIA H.265硬體編碼好用嗎?
答:虎牙直播的NVIDIA H.265硬體編碼目前可以看做是針對圖靈顯卡專門優化的一個編碼,儘管它的提示是(僅支持GTX 950及以上顯卡),但目前看來對圖靈以外的顯卡還有待優化(之後應該會增加GTX 10系及GTX 9系顯卡的支持)。所以目前除了圖靈顯卡(我甚至用GTX 16系顯卡進行測試也是沒有問題),哪怕是GTX 1080 Ti也是會出現直播報錯的現象。
首先在畫質方面,它的質量是最好的,然後是速度方面,它也是最快的。無論是開啟還是關閉錄像功能。所以,如果玩家們使用的是圖靈顯卡,那麽NVIDIA H.265硬體編碼是最適合你的直播方式。如果非圖靈顯卡,那麽還是根據CPU情況來選擇CPU H.265或是NVIDIA H.264硬體編碼吧。
不過後期隨著虎牙直播軟體的更新,也許NVIDIA H.265硬體編碼很快就會支持圖靈以外的顯卡了。
3,選擇NVIDIA編碼的優勢是什麽?
答:直播是件很吃配置的事情,什麽都不管先劃走20%-30%的性能實在是一件比較鬱悶的事情,所以剩下的運行空間往往就得讓主播們精打細算了。剩下的空間主播們也許再開個連麥工具,開個彈幕提示器,再開個語音感謝功能?
甚至有的主播還會開啟攝影頭、加速器甚至是QQ聊天軟體等工具。
越來越多的軟體會對系統造成更多的負擔,也因此最終的直播效果應該是會比測試更低的。
但不可否認的是,這些工具的開啟,佔用的都是CPU的壓力。
與顯卡相比,往往CPU的發熱量也是不容忽視。即便是我使用i9-9900K,CPU H.265編碼的幀數仍然是最低的。而在這樣的情況下繼續給CPU施加壓力,只會讓CPU的運算壓力持續增長。相應的,滿載運行帶來的是溫度的提升,整機溫度提升帶來的就是穩定性的問題了。
所以,雖然在前邊我們也曾提到過推薦非圖靈顯卡使用CPU H.265編碼或者NVIDIA H.264硬體編碼兩種形式,但我們針對的是採用的i9-9900K或者R7 2700X再或者i7-8700K這樣多核心多線程的期間級處理器。對於CPU本來就不高的玩家,採用顯卡的NVIDIA H.264硬體編碼無疑是更好的選擇。
4,應該如何選擇使用CPU還是NVIDIA編碼?
答:在這之前我們要弄明白一個問題,就是遊戲幀數是由什麽來決定的?
首先,CPU提供初始建模和一些AI的計算,然後告訴顯卡螢幕上該顯示什麽。
但是,這一部分是CPU的部分,和顯卡並沒有太大的關係。也因此我們會發現很多RTS(即時戰略類遊戲)部門多了之後,即使再好的顯卡也會卡頓,因為CPU帶不動了。
顯卡呢?就是將CPU決定要顯示點東西,渲染成我們要看到的圖像,再輸出到顯示器,而這個渲染的速度就是由顯卡來決定的。簡單的將,畫面越精致、越複雜,渲染的速度就越慢。
所以,我們其實可以將其理解為,我們每一秒所得到的幀數,是由CPU和顯卡中,拖後腿的那一個決定的。
如果我們選擇CPU編碼,而正好配置中CPU強、顯卡弱,那麽及時CPU在承擔了編碼的負擔後,依然不會拖顯卡的後腿,其幀數反而有可能比使用顯卡編碼更快。
那麽如果CPU和顯卡差不多,或者顯卡更強呢?由於CPU高密度並行計算的特點十分擅長視頻編碼,所以在計算能力方面完全不會拖後腿,這也是多數情況下,選擇GPU編碼流暢度會比CPU編碼好許多的原因。
在遊戲PC的應用實踐中,大多數情況下顯卡定位會大於CPU,可優先考慮用NVENC來編碼推流;但如果是CPU定位遠高於顯卡的少數情況,尤其是那些用頂級多核CPU的,也可以試一下CPU編碼,可能遊戲幀數會比顯卡編碼更高。
當然,這是針對圖靈架構以外顯卡的選擇。
而對於圖靈架構的顯卡呢?得益於圖靈架構及NVIDIA新的編碼技術,不僅在畫質方面,甚至是流暢性方面我們也看到了,是完全超過CPU編碼的。所以為了讓玩家有更好的直播性能發揮,我們更推薦使用全新的NVIDIA H.265硬體編碼技術。