8.6万円(楽天ポイント4400)で買ったRTX4070が届いた。
型番はNED4070019K9-1047Dでドスパラ限定のPalit Microsystemsの2ファンタイプだ。
RTX2070-12GBと2023年の流行りの生成AIを中心に10項目で勝手に作ったベンチマークで比較してみた。
結論からいえばRTX2060-12GBは生成AIでかなりコスパのいいグラボだったと実感することになった。
裏を返すとRTX4070は8万円台中盤という価格ほどには振るわない。
ちもろぐさんのところではstable diffusionでかなりいい数字が出ていたので期待していたが思ったほどではなかった。
stable diffusionではメインの生成画像サイズも違うので仕方がないか。
なおゲーム以外のベンチマークはパワーリミット(Power Limit:PL)を100%と70%の2種類を取っている。
これはグラボの性能が60%~70%あたりがワッパ(ワットパフォーマンス)のピークと設計されているため電気代が高くなっていく折にGPUの供給電力を常時70%で使用しているためだ。
PL100%のゲームのベンチマークはどこぞに腐るほどありそうなので取らなかった。
スペック上のRTX2060の能力は7.18Tflops(fp32)に対してRTX4070は29.15Tflopsと段違いなのである程度は2.5倍のパフォーマンスが出てくれると期待していたが一部異常値を別にしてマックスで2倍しか出ていない。
使っているCPUがi3(12世代)と激弱なのでCPUボトルネックがあるのではないかという疑問も沸くと思う。
実際ゲームの指標のTime Spyで17000以上出るところCPUが弱く足を引っ張り総合で13552しかでない。
この数字だとRTX4060Tiと同等にしかならない。
しかし自分が使っているツール類の性能チェックのベンチマークでCPUが足を引っ張ったのはゲームベンチ以外では動画生成のサンプル2とエンコードであとはCPU使用率はスカスカでGPUがぶん回っていた。
このグラボの能力を最大限にゲームで引き出すなら12世代や13世代のi5とかi7が必要だろうがAI生成や他の処理はきっちりGPU能力対決になっているので個人的には問題ない。
マイナーな3D動画エディタの表示が4K60FPSに張り付いてくれたので胸をなでおろしたがAI生成にハマっていた最中に買い替えていたらブチ切れていたw
このあたりのグラボに求める価値観は人それぞれだ。
基本はCUDAをぶん回している処理なのでDLSS3や3.5を活用できるAI生成とかTensorRTを使うようなRTX40シリーズの付加価値の能力を生かすソフトやレポジトリーが増えていくとRTX4070も満足のいくパフォーマンスになるのかもしれないが今のところは微妙だ。
RTX4070は新品で楽天ポイントで実質8.2万円だった。
AIではRTX2060-12GBと同等の能力のRTX3060-12GBが2023/9現在は約4万円なので7万円台前半まで下がってくれば納得の性能かもしれない。
一方でRTX2060-12GBは2022/12に中古で2.7万円で購入している。
発売開始時期がRTXやRXでのマイニング収益が赤になった以降の発売なのでマイニングで酷使されている可能性は少ないグラボだ。
生成AIのエントリーで新品ならRTX3060-12GB、中古良品で探したいならRTX2060-12GBをおすすめしたい。
次からはもう少し詳しい内容になる。
ドスパラよりRTX4070が届いた。
外観は玄人のRTX2060よりチャチくておもちゃみたいだ。
ただサイズはひとまわりデカい。
グラボを愛でる趣味はないのでさっさと入れ替えてストレステストをかけつつ消費電力とGPU温度、Hotspot温度をチェックした。
GPU温度は70度を超えないくらいなのでいい感じでHotSpotも85度前後だ。
FanCtrlでHotSpotの温度に合わせたファン回転数にしておく。
PL70%で使用するので80度以上になんてなることはないが念のためだ。
次にMSIのアフターバーナーでPL70%に設定してモニタリングツールで消費電力をチェックすると200W→140Wに下がっている。
HotSpot温度は73度でGPU温度は61度だ。
よしよし。
ちなみに玄人のRTX2060は67%までしかPLを下げられなかったがこのグラボは50%まで下げられるので電気代上昇の折に助かる。
あとは適当にベンチマークを取っていこう。
その前にちゃんとゲームのベンチマークで速度が出るか確認しておく。
ビデオドライバーは時間をかけて構築した各種AI生成のスクリプトが動かなくなると嫌なのでできる限り古いまま使いたい。
PL70%の4K高画質でFF15ベンチを取ってみた。
RTX2060のPL70%で3141あったので1.2倍だ。
いやーさすがに遅すぎるか。
8.5万円出してRTX2060からこの程度の上昇では暴動が起きる遅さだ。
ドライバーはRTX4070が発売される前の536.23だったので仕方なくその時最新の537.13にアップデートした。
不具合情報が色々あったので嫌だったが結果としては自分の環境では特に不具合はなかった。
ベンチマークも5971に上昇した。
4Kで約2倍か。
少し遅い気もするがPL70%同士なのでRTX2060の電力制限時のパフォーマンスが優秀なのかな?
では最初に表にしたベンチマーク10項目について解説していこう。
この10項目以外にもAIボイスチェンジャーやビデオモーションキャプチャーなどもGPUをぶん回すが計測しにくいAIソフトは割愛した。
テスト1 画像生成AI stable diffusion
言わずと知れたstable diffusionだ。
automatic1111 V1.3とautomatic1111 V1.5&SDXLv1で1024×1024を8枚生成してその生成速度を計測した。
モデルがキャッシュに乗ってから計測するよう先に何度か生成して温めておく。
seedは固定値だ。
起動オプション –opt-sdp-attention
Batch count2 x Batch size 4
dynamic angle,digital art,4k,8k,((masterpiece)), best quality, ultra high res, (photo realistic:1.4),1girl,
Negative prompt: EasyNegativeV2
Steps: 20, Sampler: DPM++ 2M SDE Karras, CFG scale: 7, Seed: 269561791, Size: 512×512, Model hash: ac68270450, Model: BRAV5finalfp16, Denoising strength: 0.7, Hires upscale: 2, Hires steps: 17, Hires upscaler: ESRGAN_4x, Version: v1.3.0-129-g583fb9f0
Used embeddings: EasyNegativeV2 [5685]
次はSDXL BASE V1 V1.5で同じように1024×1024を8枚生成する。
Batch count2 x Batch size 4
起動オプション -xformers
dynamic angle,digital art,4k,8k,((masterpiece)), best quality, ultra high res, (photo realistic:1.4),1girl
Steps: 20, Sampler: DPM++ 2M SDE Karras, CFG scale: 7, Seed: 269561791, Size: 1024×1024, Model hash: 31e35c80fc, Model: sd_xl_base_1.0, Version: v1.5.1
RTX2060 12GBの結果
PL100%
Time taken: 2m 51.40sTorch active/reserved: 12073/12902 MiB, Sys VRAM: 12288/12288 MiB (100.0%)
PL70%
Time taken: 3m 2.87sTorch active/reserved: 12061/12892 MiB, Sys VRAM: 12288/12288 MiB (100.0%)
PL100%
Time taken: 2 min. 58.8 sec.
PL70%
Time taken: 3 min. 6.9 sec.
RTX4070の結果
PL100%
Time taken: 1m 28.38sTorch active/reserved: 12001/12858 MiB, Sys VRAM: 12282/12282 MiB (100.0%)
PL70%
Time taken: 1m 35.26sTorch active/reserved: 12012/12870 MiB, Sys VRAM: 12282/12282 MiB (100.0%)
PL100%
Time taken: 2 min. 19.5 sec.
PL70%
Time taken: 2 min. 36.3 sec.

テスト2 言語生成AI
oobaboogaでモデルTheBloke_WizardCoder-15B-1.0-GPTQを稼働させた。
maxtokenは2000に引き上げている。
seed固定で下記質問を入力して言語AIの指標となるtokens/sをチェックした。
「Write a long story. The synopsis is that the knight is the main character and is tied up with the princess at the end.」
(長い物語を書いてください。あらすじは騎士が主人公で最後はお姫様と結ばれるというものです。)
言語AIはseedを固定しても毎度回答の内容や長さが異なるので完全な比較はできない。
RTX2060 12GB
PL100%
88.54 seconds (11.68 tokens/s, 1034 tokens, context 48, seed 672111531)
40.97 seconds (12.01 tokens/s, 492 tokens, context 48, seed 672111531)
41.24 seconds (11.93 tokens/s, 492 tokens, context 48, seed 67211153
PL70%
134.18 seconds (10.86 tokens/s, 1457 tokens, context 48, seed 672111531
57.63 seconds (12.55 tokens/s, 723 tokens, context 48, seed 672111531)
41.48 seconds (11.86 tokens/s, 492 tokens, context 48, seed 672111531)
RTX4070
PL100%
14.89 seconds (26.93 tokens/s, 401 tokens, context 48, seed 672111531)
26.12 seconds (22.59 tokens/s, 590 tokens, context 48, seed 672111531)
15.61 seconds (25.69 tokens/s, 401 tokens, context 48, seed 672111531)
PL70%
6.89 seconds (21.19 tokens/s, 146 tokens, context 48, seed 672111531)
17.05 seconds (23.52 tokens/s, 401 tokens, context 48, seed 672111531)
33.26 seconds (19.18 tokens/s, 638 tokens, context 48, seed 672111531)

テスト3 顔認識・動画変換AI
テスト手順は割愛、4つの動画の顔変換
サンプル動画は多人数のダンス動画、4K高画質動画、画像サイズ小さめな動画、face enhancer
RTX2060 12GB
PL100%
42/42 [00:20<00:00, 2.06frame/s]
191/191 [00:54<00:00, 3.47frame/s]
195/195 [00:12<00:00, 15.91frame/s]
19/195 [00:48<07:47, 2.65s/frame]
PL70%
42/42 [02:01<00:00, 2.89s/frame]
191/191 [00:55<00:00, 3.43frame/s]
195/195 [00:14<00:00, 13.47frame/s]
20/195 [00:52<08:00, 2.74s/frame]
RTX4070
PL100%
42/42 [00:12<00:00, 3.32frame/s]
191/191 [00:55<00:00, 3.44frame/s]
195/195 [00:06<00:00, 31.05frame/s]
20/195 [00:25<03:52, 1.33s/frame]
PL70%
42/42 [00:12<00:00, 3.27frame/s]
191/191 [00:55<00:00, 3.45frame/s]
195/195 [00:06<00:00, 31.57frame/s]
20/195 [00:26<04:01, 1.38s/frame]

テスト4 曲生成AI audiocraft
入力テキスト固定で30秒の作曲
audiocraft を使いモデルは facebook/musicgen-melody
(10回くらい生成すると1、2音の手直しでyoutubeあたりのBGMで使えるのが1曲できる)
作曲テキスト「 80’s pops」
RTX2060 12GB
PL100% 52s
PL70% 52s
RTX4070
PL100% 32s
PL70% 36s

テスト5 3D動画エディタ
とあるマイナーな3D動画エディタの動作シーンのFPSをチェック
RTX2060 12GB
サンプル1
PL100% 29-34FPS
PL70% 29-33FPS
サンプル2
PL100% 43-73FPS
PL70% 47-63FPS
サンプル3
PL100% 42-45FPS
PL70% 39-41FPS
RTX4070
サンプル1
PL100% 59-60FPS
PL70% 57-60FPS
サンプル2
PL100% 59-60FPS
PL70% 59-60FPS
サンプル3
PL100% 59-60FPS
PL70% 59-60FPS

テスト6 ゲーム PL70%のみ
RTX2060 12GB
FF15-4k高品質 3141 普通
3D Mark Time spy 7018
Fire strike 16222
RTX4070
FF15-4k高品質 5971 やや快適
3D Mark Time spy 12037
Fire strike 25904

7.PCVR PL70%のみ
Meta Quest2とつないでPCVRで使用する。
あとベンチマークのVRMARKの実行も。
ビートセイバーでALLチェックしレンダリングスケールをどこまで上げて遊べるか?
RTX2060
レンダリングスケール最大値は1.8で最低の0.8が限界だった。
それ以上に値を大きくするとノーツがカクカクになる。
VRMARK 10297
RTX4070
1.3-1.4あたりまで上げてもノーツがブレない。
1.5まで上げるとプレイしにくくなる。
VRMARK 12860

8.エンコード PL100%
RTX2060 12GB
Workの中の53s 60fps 4k動画のデフォ再エンコ
HandBrake H.264 NVenc Q20 slowest 1:14
XMedia Recode H.265 NVenc 固定20Mbps 最高画質 47s
VSDC H.264 NVenc UltraQ 画質100% 54s
RTX4070
HandBrake H.264 NVenc Q20 slowest 1:01
XMedia Recode H.265 NVenc 固定20Mbps 最高画質 40s
VSDC H.264 NVenc UltraQ 画質100% 52s

その後灯台下暗しで一番使っているFFMPEGでAV1エンコードができることに気がついて試してみたが速度はh264より1-2割遅かった。ただめちゃくちゃ圧縮率が上がっている。倍の圧縮率という喧伝も伊達じゃない。動画中心ならAV1エンコーダー目当てに買ってもいい。別にRTX40シリーズじゃなくてインテルのグラボのarcで対応しているので2万円で買える。喜んで3D動画エディタで作ったVR動画をquest2で再生しようとしたがXR2がAV1コーディックをサポートしていないようでカクカクだった。他にもハードウェア再生だとサポートしていないのがあるのでこのあたりは今後の対応がポイントだ。個人的にはコーディックが混ざり再生できないと困るのでAV1は封印する。

9.アップスケールエンコード PL70%
AVClab Video Enhance
RTX2060 2.08s/Frame
RTX4070 2.26s/Frame

10 VOICEBOX
URLの羅生門全文を四国めたんに読み上げさせたwavファイルをGPU処理で書き出し
リアル読み上げ時間 16:28
RTX2060 57s
RTX4070 47s

まとめ
3060の2倍以上する8万2千円も出したんだからとRTX4070に対する期待値が高すぎた。
世の中スペック通りにはいかないもの。
税金の還付金などを集めた泡銭ではなく完全な自腹で買っていたら暴れていた。
このグラボ売れていないらしいというのも納得で消費者のみなさんは頭がいい。
一方でまだ1年も使っていないが中古2.7万円で買ったRTX2060は生成AIで遊びまくったので十分元が取れた。
せっかく買い替えたので仕方ないから劇重で有名なサイバーパンク2077を4KのDLSS3で遊ぶかな?
サイバーパンクも一昔前なので最近の劇重AAAタイトルだとスターフィールドか。
手段と目的が入れ替わってしまっている。