github-trend-summarizer

Ollama — ローカル LLM 実行基盤

これは何？

Ollama は、大規模言語モデル（LLM）をローカルマシン上で簡単に動かすためのランタイム＋CLI＋APIサーバー。内部的には llama.cpp をバックエンドに持ち、モデルのダウンロード・ロード・推論・管理をワンストップで提供する。Go で書かれており、macOS / Linux / Windows / Docker に対応。NVIDIA CUDA・AMD ROCm・Apple Metal による GPU アクセラレーションを自動検出する。

何が嬉しいのか？（既存手段との比較）

観点	llama.cpp 直接利用	vLLM / TGI 等	Ollama
セットアップ	ビルド・モデル変換が必要	Docker + GPU 設定が煩雑	`ollama run llama3` の1コマンド
モデル管理	手動でファイル配置	手動 or HuggingFace Hub	`pull/push/list/delete` で Docker 風に管理
GPU 割り当て	手動パラメータ指定	設定ファイルで指定	自動検出・自動割り当て
API	なし（CLI のみ）	OpenAI 互換 API	REST API（`localhost:11434`）＋ OpenAI 互換＋ Anthropic 互換
マルチモデル同時稼働	不可	可能だが設定が重い	スケジューラが自動でロード/アンロードを管理
対象ユーザー	開発者・研究者	本番サービス向け	個人〜チームの日常利用に最適

要するに「Docker が “コンテナを誰でも動かせる” にしたこと」を、LLM に対してやっているのが Ollama。モデルの取得から実行まで、インフラ知識をほぼ要求しない。

使うときの流れ

1. インストール
   $ curl -fsSL https://ollama.com/install.sh | sh   # Linux
   # macOS: Homebrew or DMG / Windows: EXE インストーラ

2. モデルを取得して対話
   $ ollama run qwen3          # pull + 対話が一発で始まる
   >>> こんにちは！何でも聞いてください。

3. API サーバーとして使う（デフォルトで常時起動）
   $ curl http://localhost:11434/api/chat -d '{
       "model": "qwen3",
       "messages": [{"role":"user","content":"Goの並行処理を説明して"}]
     }'

4. モデル管理
   $ ollama list               # ローカルのモデル一覧
   $ ollama pull gemma3        # 新しいモデルを追加
   $ ollama rm mistral         # 不要なモデルを削除

5. カスタムモデル作成（Modelfile）
   FROM qwen3
   SYSTEM "あなたは日本語専門のアシスタントです"
   $ ollama create my-model -f Modelfile

6. 外部ツールとの連携
   - Claude Code / VS Code / Cline 等とワンコマンドで統合
   $ ollama launch claude

ポイント: サーバーはバックグラウンドで常駐し、モデルは使用後も一定時間メモリに保持される（keep_alive）。複数モデルの同時ロード・自動アンロードをスケジューラが管理するため、ユーザーはリソース管理を意識する必要がない。

This site is open source. Improve this page.