ローカルLLMに必要なスペック

ローカルLLMに必要なスペック【GPU・メモリの選び方】

ローカルLLMを快適に動かすには、適切なハードウェアが必要です。

この記事では、用途別の推奨スペックとコストを解説します。

1. スペックの考え方

重要な要素

要素 重要度 理由
GPU VRAM モデルの読み込みに必要
GPU性能 推論速度に影響
メモリ 大きいモデルで必要
ストレージ モデル保存に必要
CPU GPU推論では影響小

モデルサイズとVRAM

【目安】
モデルパラメータ数 × 2 ≒ 必要VRAM(GB)
※ 4bit量子化の場合

例:
7Bモデル → 約4GB VRAM
13Bモデル → 約8GB VRAM
30Bモデル → 約16GB VRAM
70Bモデル → 約40GB VRAM

2. GPUの選び方

NVIDIA GPU比較(2025年版)

GPU VRAM 価格目安 対応モデル
RTX 5070 12GB 9〜11万円 〜13B
RTX 5070 Ti 16GB 14〜15万円 〜20B
RTX 5080 16GB 20〜23万円 〜20B
RTX 5090 32GB 40〜50万円 〜70B

※ RTX 40シリーズは生産終了につき在庫限り。RTX 50シリーズ(Blackwell世代)がメインとなります。

選び方のポイント

VRAMが最重要
  • GPUの演算性能よりVRAM容量を優先
  • 12GBあれば多くの用途に対応
  • 32GBあれば大型モデルも可
コスパ重視なら

RTX 5070 12GB(9〜11万円)→ VRAM容量に対してバランス良好

GPU推論が必要な理由

【CPU推論】
・遅い(10〜100倍遅い)
・でも動く
・試用には使える

【GPU推論】
・高速
・実用的
・リアルタイム応答可能

3. メモリとストレージ

システムメモリ

用途 推奨メモリ
7Bモデル 16GB以上
13Bモデル 32GB以上
30B以上 64GB以上
【メモリが必要な理由】
・モデルの一部をメモリに展開
・GPU VRAMが足りない場合のオフロード
・他のアプリケーションとの同時使用

ストレージ

【必要容量の目安】
・OS・アプリ:50GB
・モデル1つ:4〜40GB
・複数モデル:100GB以上推奨

【SSD推奨】
・モデル読み込みが高速
・NVMe SSDが最適

4. 用途別推奨スペック

入門・検証用

用途
  • ローカルLLMの試用
  • 小規模な利用
  • 学習目的
【推奨スペック】
GPU:RTX 5070 12GB
CPU:Core i5以上
メモリ:16GB
ストレージ:SSD 256GB

【対応モデル】7B〜13Bクラス
【費用目安】20〜25万円(PC全体)

実務利用(個人・小規模)

用途
  • 日常的なAI活用
  • 文書作成支援
  • データ分析補助
【推奨スペック】
GPU:RTX 5070 Ti 16GB / RTX 5080 16GB
CPU:Core i7以上
メモリ:32GB
ストレージ:SSD 512GB

【対応モデル】7B〜20Bクラス
【費用目安】30〜45万円(PC全体)

本格運用(部門・チーム)

用途
  • 複数人での利用
  • 高品質な応答が必要
  • 複雑なタスク
【推奨スペック】
GPU:RTX 5090 32GB
CPU:Core i9 / Ryzen 9
メモリ:64GB
ストレージ:SSD 1TB

【対応モデル】〜70Bクラス
【費用目安】70〜100万円(PC全体)

5. 構成例と費用

構成例1: 入門構成

パーツ構成
CPU:Intel Core i5-14400(3.5万円)
GPU:RTX 5070 12GB(10万円)
メモリ:DDR5 16GB(1万円)
SSD:500GB NVMe(0.7万円)
マザーボード:B760(1.8万円)
電源:750W(1.2万円)
ケース:(1万円)

【合計】約19万円

※ OS別

構成例2: 実務構成

パーツ構成
CPU:Intel Core i7-14700(5.5万円)
GPU:RTX 5070 Ti 16GB(15万円)
メモリ:DDR5 32GB(1.8万円)
SSD:1TB NVMe(1.2万円)
マザーボード:B760(2万円)
電源:850W(1.5万円)
ケース:(1.2万円)

【合計】約28万円

構成例3: ハイエンド構成

パーツ構成
CPU:Intel Core i9-14900K(9万円)
GPU:RTX 5090 32GB(45万円)
メモリ:DDR5 64GB(3.5万円)
SSD:2TB NVMe(2.2万円)
マザーボード:Z790(3.5万円)
電源:1200W(2.5万円)
ケース:(1.8万円)

【合計】約68万円

6. Mac(Apple Silicon)の場合

Apple Siliconの特徴

メリット
  • 統合メモリ(GPU/CPU共有)
  • 電力効率が良い
  • Ollamaが最適化されている
  • 静音
デメリット
  • メモリ増設不可
  • NVIDIAに比べると遅い場合あり

推奨モデル

Mac メモリ 対応モデル 価格
M1/M2 16GB 〜7B 15〜20万円
M1/M2 Pro 32GB 〜13B 25〜35万円
M1/M2 Max 64GB 〜30B 40〜50万円
M2 Ultra 128GB 〜70B 80万円〜

Macでの実行

【Ollama on Mac】
・M1以降のMacで動作
・統合メモリをフル活用
・インストールは簡単

bash
# インストール
brew install ollama

# 実行
ollama run llama3.1

7. クラウドGPUの選択肢

クラウドを使う場合

向いているケース
  • 初期投資を抑えたい
  • 一時的な利用
  • 超大型モデルを使いたい
【サービス例】
・Google Colab(無料枠あり)
・AWS(EC2 GPU インスタンス)
・Azure(GPU VM)
・Lambda Labs
・RunPod

コスト比較

【月100時間利用の場合】

クラウド(RTX 5090相当):
約4〜6万円/月

自前(RTX 5090):
初期70万円、電気代月4000円程度

→ 1年以上使うなら自前が安い

8. まとめ

スペック選びの基本

1. 使いたいモデルサイズを決める
2. 必要なVRAMを確認
3. 予算に合わせてGPUを選択
4. メモリ・ストレージを決定

推奨構成

レベル 構成 対応モデル 費用
入門 RTX 5070 12GB + 16GB RAM 7B-13B 約20万円
実務 RTX 5070 Ti 16GB + 32GB RAM 7B-20B 約30万円
本格 RTX 5090 32GB + 64GB RAM 〜70B 約70万円

関連記事

お問い合わせ

ローカルLLM環境構築についてのご相談は、お気軽にお問い合わせください。

お問い合わせはこちら

最終更新: 2025年1月