RTX4070 vs RTX2060-12GB AI性能徹底比較

8.6万円(楽天ポイント4400)で買ったRTX4070が届いた。

型番はNED4070019K9-1047Dでドスパラ限定のPalit Microsystemsの2ファンタイプだ。

RTX2070-12GBと2023年の流行りの生成AIを中心に10項目で勝手に作ったベンチマークで比較してみた。

結論からいえばRTX2060-12GBは生成AIでかなりコスパのいいグラボだったと実感することになった。

裏を返すとRTX4070は8万円台中盤という価格ほどには振るわない。

ちもろぐさんのところではstable diffusionでかなりいい数字が出ていたので期待していたが思ったほどではなかった。

stable diffusionではメインの生成画像サイズも違うので仕方がないか。

なおゲーム以外のベンチマークはパワーリミット(Power Limit:PL)を100%と70%の2種類を取っている。

これはグラボの性能が60%~70%あたりがワッパ(ワットパフォーマンス)のピークと設計されているため電気代が高くなっていく折にGPUの供給電力を常時70%で使用しているためだ。

PL100%のゲームのベンチマークはどこぞに腐るほどありそうなので取らなかった。

スペック上のRTX2060の能力は7.18Tflops(fp32)に対してRTX4070は29.15Tflopsと段違いなのである程度は2.5倍のパフォーマンスが出てくれると期待していたが一部異常値を別にしてマックスで2倍しか出ていない。

使っているCPUがi3(12世代)と激弱なのでCPUボトルネックがあるのではないかという疑問も沸くと思う。

実際ゲームの指標のTime Spyで17000以上出るところCPUが弱く足を引っ張り総合で13552しかでない。

この数字だとRTX4060Tiと同等にしかならない。

引用 グラフィックボード性能比較

しかし自分が使っているツール類の性能チェックのベンチマークでCPUが足を引っ張ったのはゲームベンチ以外では動画生成のサンプル2とエンコードであとはCPU使用率はスカスカでGPUがぶん回っていた。

このグラボの能力を最大限にゲームで引き出すなら12世代や13世代のi5とかi7が必要だろうがAI生成や他の処理はきっちりGPU能力対決になっているので個人的には問題ない。

マイナーな3D動画エディタの表示が4K60FPSに張り付いてくれたので胸をなでおろしたがAI生成にハマっていた最中に買い替えていたらブチ切れていたw

このあたりのグラボに求める価値観は人それぞれだ。

基本はCUDAをぶん回している処理なのでDLSS3や3.5を活用できるAI生成とかTensorRTを使うようなRTX40シリーズの付加価値の能力を生かすソフトやレポジトリーが増えていくとRTX4070も満足のいくパフォーマンスになるのかもしれないが今のところは微妙だ。

RTX4070は新品で楽天ポイントで実質8.2万円だった。

AIではRTX2060-12GBと同等の能力のRTX3060-12GBが2023/9現在は約4万円なので7万円台前半まで下がってくれば納得の性能かもしれない。

一方でRTX2060-12GBは2022/12に中古で2.7万円で購入している。

発売開始時期がRTXやRXでのマイニング収益が赤になった以降の発売なのでマイニングで酷使されている可能性は少ないグラボだ。

生成AIのエントリーで新品ならRTX3060-12GB、中古良品で探したいならRTX2060-12GBをおすすめしたい。

次からはもう少し詳しい内容になる。

ドスパラよりRTX4070が届いた。

外観は玄人のRTX2060よりチャチくておもちゃみたいだ。

ただサイズはひとまわりデカい。

グラボを愛でる趣味はないのでさっさと入れ替えてストレステストをかけつつ消費電力とGPU温度、Hotspot温度をチェックした。

GPU温度は70度を超えないくらいなのでいい感じでHotSpotも85度前後だ。

FanCtrlでHotSpotの温度に合わせたファン回転数にしておく。

PL70%で使用するので80度以上になんてなることはないが念のためだ。

次にMSIのアフターバーナーでPL70%に設定してモニタリングツールで消費電力をチェックすると200W→140Wに下がっている。

HotSpot温度は73度でGPU温度は61度だ。

よしよし。

ちなみに玄人のRTX2060は67%までしかPLを下げられなかったがこのグラボは50%まで下げられるので電気代上昇の折に助かる。

あとは適当にベンチマークを取っていこう。

その前にちゃんとゲームのベンチマークで速度が出るか確認しておく。

ビデオドライバーは時間をかけて構築した各種AI生成のスクリプトが動かなくなると嫌なのでできる限り古いまま使いたい。

PL70%の4K高画質でFF15ベンチを取ってみた。

RTX2060のPL70%で3141あったので1.2倍だ。

いやーさすがに遅すぎるか。

8.5万円出してRTX2060からこの程度の上昇では暴動が起きる遅さだ。

ドライバーはRTX4070が発売される前の536.23だったので仕方なくその時最新の537.13にアップデートした。

不具合情報が色々あったので嫌だったが結果としては自分の環境では特に不具合はなかった。

ベンチマークも5971に上昇した。

4Kで約2倍か。

少し遅い気もするがPL70%同士なのでRTX2060の電力制限時のパフォーマンスが優秀なのかな?

では最初に表にしたベンチマーク10項目について解説していこう。

この10項目以外にもAIボイスチェンジャーやビデオモーションキャプチャーなどもGPUをぶん回すが計測しにくいAIソフトは割愛した。

テスト1 画像生成AI stable diffusion

言わずと知れたstable diffusionだ。

automatic1111 V1.3とautomatic1111 V1.5&SDXLv1で1024×1024を8枚生成してその生成速度を計測した。

モデルがキャッシュに乗ってから計測するよう先に何度か生成して温めておく。

seedは固定値だ。

起動オプション  –opt-sdp-attention

Batch count2 x Batch size 4

dynamic angle,digital art,4k,8k,((masterpiece)), best quality, ultra high res, (photo realistic:1.4),1girl,
Negative prompt: EasyNegativeV2
Steps: 20, Sampler: DPM++ 2M SDE Karras, CFG scale: 7, Seed: 269561791, Size: 512×512, Model hash: ac68270450, Model: BRAV5finalfp16, Denoising strength: 0.7, Hires upscale: 2, Hires steps: 17, Hires upscaler: ESRGAN_4x, Version: v1.3.0-129-g583fb9f0
Used embeddings: EasyNegativeV2 [5685]

次はSDXL BASE V1 V1.5で同じように1024×1024を8枚生成する。

Batch count2 x Batch size 4

起動オプション -xformers

dynamic angle,digital art,4k,8k,((masterpiece)), best quality, ultra high res, (photo realistic:1.4),1girl
Steps: 20, Sampler: DPM++ 2M SDE Karras, CFG scale: 7, Seed: 269561791, Size: 1024×1024, Model hash: 31e35c80fc, Model: sd_xl_base_1.0, Version: v1.5.1

RTX2060 12GBの結果

PL100%
Time taken: 2m 51.40sTorch active/reserved: 12073/12902 MiB, Sys VRAM: 12288/12288 MiB (100.0%)
PL70%
Time taken: 3m 2.87sTorch active/reserved: 12061/12892 MiB, Sys VRAM: 12288/12288 MiB (100.0%)

PL100%
Time taken: 2 min. 58.8 sec.

PL70%
Time taken: 3 min. 6.9 sec.

RTX4070の結果

PL100%
Time taken: 1m 28.38sTorch active/reserved: 12001/12858 MiB, Sys VRAM: 12282/12282 MiB (100.0%)

PL70%
Time taken: 1m 35.26sTorch active/reserved: 12012/12870 MiB, Sys VRAM: 12282/12282 MiB (100.0%)

PL100%
Time taken: 2 min. 19.5 sec.

PL70%
Time taken: 2 min. 36.3 sec.

画像生成でPLの違いによるパフォーマンスの差は少ない一方で電気代が高くなっていくので大量生成者なら電力制限は有効な手段だろう。RTX4070のSDXLは途中とラストで非常に長い息継ぎして止まったようになるのでパラメータや設定で改善の余地がありそう。ただstable diffusionは飽きて使っていないので調べることもなくこのまま迷宮入りだろう。cuDNNは8.9.1と新しいものを使っているし起動パラメーターもRTX40シリーズならspdaが強いはず。だからV1.3のデータはガチなので2倍程度の差しかない。
おーら
おーら

テスト2 言語生成AI

oobaboogaでモデルTheBloke_WizardCoder-15B-1.0-GPTQを稼働させた。

maxtokenは2000に引き上げている。

seed固定で下記質問を入力して言語AIの指標となるtokens/sをチェックした。

「Write a long story. The synopsis is that the knight is the main character and is tied up with the princess at the end.」

(長い物語を書いてください。あらすじは騎士が主人公で最後はお姫様と結ばれるというものです。)

言語AIはseedを固定しても毎度回答の内容や長さが異なるので完全な比較はできない。

RTX2060 12GB
PL100%
88.54 seconds (11.68 tokens/s, 1034 tokens, context 48, seed 672111531)
40.97 seconds (12.01 tokens/s, 492 tokens, context 48, seed 672111531)
41.24 seconds (11.93 tokens/s, 492 tokens, context 48, seed 67211153

PL70%
134.18 seconds (10.86 tokens/s, 1457 tokens, context 48, seed 672111531
57.63 seconds (12.55 tokens/s, 723 tokens, context 48, seed 672111531)
41.48 seconds (11.86 tokens/s, 492 tokens, context 48, seed 672111531)

RTX4070

PL100%
14.89 seconds (26.93 tokens/s, 401 tokens, context 48, seed 672111531)
26.12 seconds (22.59 tokens/s, 590 tokens, context 48, seed 672111531)
15.61 seconds (25.69 tokens/s, 401 tokens, context 48, seed 672111531)

PL70%
6.89 seconds (21.19 tokens/s, 146 tokens, context 48, seed 672111531)
17.05 seconds (23.52 tokens/s, 401 tokens, context 48, seed 672111531)
33.26 seconds (19.18 tokens/s, 638 tokens, context 48, seed 672111531)

言語生成AIはVRAMが全てでグラボ性能で差が出にくいと思い込んでいたが2倍になっているのでバッチ処理の画像生成に比べてリアルタイムで使う言語生成AIなら買い替えの恩恵はある。
おーら
おーら

テスト3 顔認識・動画変換AI

テスト手順は割愛、4つの動画の顔変換

サンプル動画は多人数のダンス動画、4K高画質動画、画像サイズ小さめな動画、face enhancer

RTX2060 12GB

PL100%
42/42 [00:20<00:00, 2.06frame/s]
191/191 [00:54<00:00, 3.47frame/s]
195/195 [00:12<00:00, 15.91frame/s]
19/195 [00:48<07:47, 2.65s/frame]

PL70%
42/42 [02:01<00:00, 2.89s/frame]
191/191 [00:55<00:00, 3.43frame/s]
195/195 [00:14<00:00, 13.47frame/s]
20/195 [00:52<08:00, 2.74s/frame]

RTX4070

PL100%
42/42 [00:12<00:00, 3.32frame/s]
191/191 [00:55<00:00, 3.44frame/s]
195/195 [00:06<00:00, 31.05frame/s]
20/195 [00:25<03:52, 1.33s/frame]

PL70%
42/42 [00:12<00:00, 3.27frame/s]
191/191 [00:55<00:00, 3.45frame/s]
195/195 [00:06<00:00, 31.57frame/s]
20/195 [00:26<04:01, 1.38s/frame]

同じ処理でもやるたびにばらつきが出るのであくまで参考情報だ。画像が小さく軽めの処理なら何とか2倍出るようだ。ただこの動画生成はゲーム同様にCPUボトルネックが出やすい。
おーら
おーら

テスト4 曲生成AI audiocraft

入力テキスト固定で30秒の作曲

audiocraft を使いモデルは facebook/musicgen-melody

(10回くらい生成すると1、2音の手直しでyoutubeあたりのBGMで使えるのが1曲できる)

作曲テキスト「 80’s pops」

RTX2060 12GB
PL100% 52s
PL70% 52s

RTX4070
PL100% 32s
PL70% 36s

RTX2060でもCUDAがぶん回っていなかったので差が出にくいと思っていたら案の定だ。といってCPUが振り切っているわけでもない。ボトルネックがよくわからないソフトだ。
おーら
おーら

テスト5 3D動画エディタ

とあるマイナーな3D動画エディタの動作シーンのFPSをチェック

RTX2060 12GB

サンプル1

PL100% 29-34FPS

PL70% 29-33FPS

サンプル2

PL100% 43-73FPS

PL70% 47-63FPS

サンプル3

PL100% 42-45FPS

PL70% 39-41FPS

RTX4070

サンプル1

PL100% 59-60FPS

PL70% 57-60FPS

サンプル2

PL100% 59-60FPS

PL70% 59-60FPS

サンプル3

PL100% 59-60FPS

PL70% 59-60FPS

RTX2060では60FPSを突破していることもあったがグラボを入れ替えたらなぜか60FPSで制限がかかるようになってしまった。どこかの設定だろうがわからん。それでも60FPSで張り付くので助かった。こいつをやるためにRTX4070を買ったようなもの。
おーら
おーら

テスト6 ゲーム PL70%のみ

RTX2060 12GB

FF15-4k高品質  3141 普通
3D Mark Time spy 7018
Fire strike 16222

RTX4070
FF15-4k高品質  5971 やや快適
3D Mark Time spy 12037
Fire strike 25904

あまり重いゲームで遊ぶこともなくRTX2060のパフォーマンスで満足していたのでPL70%で少しだけチェックした。
おーら
おーら

7.PCVR PL70%のみ

Meta Quest2とつないでPCVRで使用する。

あとベンチマークのVRMARKの実行も。

ビートセイバーでALLチェックしレンダリングスケールをどこまで上げて遊べるか?

RTX2060

レンダリングスケール最大値は1.8で最低の0.8が限界だった。

それ以上に値を大きくするとノーツがカクカクになる。

VRMARK 10297

RTX4070

1.3-1.4あたりまで上げてもノーツがブレない。

1.5まで上げるとプレイしにくくなる。

VRMARK 12860

ビートセイバーはスタンドアロンでしかクリアできない譜面がPCVRで普通にクリアできるように激変した。スタンドアロンVRよりもPCVRの方がプレイしやすくなった。これは良い誤算だ。個人的にグラボ交換の恩恵があったのは3D動画エディタとPCVRだ。eスポーツ競技もそうだがFPS系ゲームは腕以上に機材が大切なのを実感した。最新グラボのFPS値が少し上がったくらいでギャーギャー騒ぐ理由がよくわかった。一方でVRMARKは大して上昇していないのでVR環境をチェック指標としてあまりあてにならない?
おーら
おーら

8.エンコード PL100%

RTX2060 12GB

Workの中の53s 60fps 4k動画のデフォ再エンコ

HandBrake H.264 NVenc Q20 slowest 1:14

XMedia Recode H.265 NVenc 固定20Mbps 最高画質 47s

VSDC H.264 NVenc UltraQ 画質100% 54s

RTX4070

HandBrake H.264 NVenc Q20 slowest 1:01

XMedia Recode H.265 NVenc 固定20Mbps 最高画質 40s

VSDC H.264 NVenc UltraQ 画質100% 52s

エンコードは早く終わって欲しいのでPL100%のみ。イマイチ伸びなかった。ハードウェアエンコードをしているが不思議とCPUもぶん回るのでCPU能力で頭打ちなのだろう。なおRTX4070にも1機搭載されているAV1エンコーダーも試してみたかったが手持ちのエンコードソフトでは対応していなかった。ビートセイバーの録画でAV1対応のOBSは使っているが計測方法が思いつかない。
おーら
おーら
追記

その後灯台下暗しで一番使っているFFMPEGでAV1エンコードができることに気がついて試してみたが速度はh264より1-2割遅かった。ただめちゃくちゃ圧縮率が上がっている。倍の圧縮率という喧伝も伊達じゃない。動画中心ならAV1エンコーダー目当てに買ってもいい。別にRTX40シリーズじゃなくてインテルのグラボのarcで対応しているので2万円で買える。喜んで3D動画エディタで作ったVR動画をquest2で再生しようとしたがXR2がAV1コーディックをサポートしていないようでカクカクだった。他にもハードウェア再生だとサポートしていないのがあるのでこのあたりは今後の対応がポイントだ。個人的にはコーディックが混ざり再生できないと困るのでAV1は封印する。

おーら
おーら

9.アップスケールエンコード PL70%

AVClab Video Enhance

RTX2060 2.08s/Frame

RTX4070 2.26s/Frame

悪化している。。。使わんからいいけどw 検証用としてインストールしたままアップデートしていないのでもしかすると更新すれば多少はよくなるかもしれない。
おーら
おーら

10 VOICEBOX

URLの羅生門全文を四国めたんに読み上げさせたwavファイルをGPU処理で書き出し

リアル読み上げ時間 16:28

RTX2060 57s

RTX4070 47s

無償で利用できるVOICEBOXの四国めたんちゃんやずんだもんのナレーション作りは解説Youtuber御用達で需要も多い。ただ安いGPUで書き出しても十分速いので差がなくても問題ないか。
おーら
おーら

まとめ

3060の2倍以上する8万2千円も出したんだからとRTX4070に対する期待値が高すぎた。

世の中スペック通りにはいかないもの。

税金の還付金などを集めた泡銭ではなく完全な自腹で買っていたら暴れていた。

このグラボ売れていないらしいというのも納得で消費者のみなさんは頭がいい。

一方でまだ1年も使っていないが中古2.7万円で買ったRTX2060は生成AIで遊びまくったので十分元が取れた。

せっかく買い替えたので仕方ないから劇重で有名なサイバーパンク2077を4KのDLSS3で遊ぶかな?

サイバーパンクも一昔前なので最近の劇重AAAタイトルだとスターフィールドか。

手段と目的が入れ替わってしまっている。


おすすめ記事

ためになる記事だと思ったらシェアおねげえします

フォローする