github-trend-summarizer

Voicebox — ローカルファーストの音声合成スタジオ

これは何？

Voicebox は、ElevenLabs のオープンソース代替 を目指すデスクトップアプリケーション。音声クローニング、テキスト読み上げ（TTS）、オーディオエフェクト、マルチトラック編集をひとつの GUI に統合している。

技術スタックは以下の3層構成：

層	技術	役割
フロントエンド	React 18 + TypeScript + TanStack Router/Query + Tailwind	エディタUI・波形表示・タイムライン
バックエンド	Python FastAPI + SQLAlchemy (SQLite) + PyTorch/MLX	TTS推論・モデル管理・REST API (90+エンドポイント)
デスクトップシェル	Tauri v2 (Rust)	ネイティブウィンドウ・マイク/システム音声キャプチャ・自動更新

6つのTTSエンジンを切り替えて使える：

Qwen3-TTS (1.7B/0.6B) — 10言語、高品質クローニング、話し方指示対応
Chatterbox Multilingual — 23言語、ゼロショットクローニング
Chatterbox Turbo (350M) — 英語、[laugh] [sigh] 等の感情タグ対応
TADA (HumeAI) (1B/3B) — 700秒超の長文一貫生成
LuxTTS — 英語、CPU上で150倍リアルタイム速度の超軽量エンジン
Kokoro (82M) — 開発中、CPU リアルタイム推論

何が嬉しいのか？（既存手段との比較）

観点	ElevenLabs (代表的SaaS)	Voicebox
コスト	月額 $5〜$200 の従量課金	完全無料 (MIT ライセンス)
プライバシー	音声データがクラウドに送信される	ローカル完結 — モデルもデータもデバイス上
エンジン選択	プロプライエタリ1種のみ	6エンジンを用途別に切替可能
エフェクト	ピッチ・速度程度	8種類 (リバーブ/コーラス/コンプレッサー等) + プリセット保存
マルチボイス編集	タイムラインなし	Stories エディタでDAW風マルチトラック編集・ミックス書出し
長文対応	制限あり	最大50,000文字、自動チャンク分割＋クロスフェード接合
デスクトップ体験	Webのみ	Tauri (Rust) によるネイティブアプリ（Electronより軽量）
API連携	有料APIキー必要	`localhost:17493` に認証なしでREST/SSE接続可能

要するに、「クラウドに音声データを渡さず、無料で、複数のOSSモデルを試しながら音声制作できる」 点が最大の差別化ポイント。ポッドキャスト制作、ゲームの台詞生成、アクセシビリティツール等に向く。

使うときの流れ

┌─────────────────────────────────────────────────────┐
│ 1. インストール & 起動                                │
│    • macOS/Windows: .dmg/.msi をダウンロードして起動    │
│    • Docker: docker compose up → localhost:17493      │
│    • 開発: just setup && just dev                     │
│    → Python バックエンドが自動起動、React UI が接続     │
└──────────────────────┬──────────────────────────────┘
                       ▼
┌─────────────────────────────────────────────────────┐
│ 2. ボイスプロファイル作成  [Voices タブ]               │
│    • マイクで 10〜30秒 録音、または音声ファイルをアップロード│
│    • 発話内容のテキスト（リファレンステキスト）を入力      │
│    • 保存 → 音声埋め込み(embedding)がローカルに保存     │
└──────────────────────┬──────────────────────────────┘
                       ▼
┌─────────────────────────────────────────────────────┐
│ 3. 音声生成  [メインエディタ]                          │
│    • テキスト入力 → プロファイル選択 → エンジン選択      │
│    • 「Generate」クリック                              │
│    • 初回はモデルを HuggingFace から自動DL (数GB)       │
│    • SSE でリアルタイム進捗表示 → 完了後に波形プレビュー  │
└──────────────────────┬──────────────────────────────┘
                       ▼
┌─────────────────────────────────────────────────────┐
│ 4. エフェクト適用（任意） [Effects タブ]               │
│    • リバーブ / ピッチシフト / コンプレッサー等を重ね掛け  │
│    • プリセット保存 → プロファイルごとのデフォルト設定可   │
│    • 元音声は常に保持（非破壊編集）                     │
└──────────────────────┬──────────────────────────────┘
                       ▼
┌─────────────────────────────────────────────────────┐
│ 5. マルチボイス構成（任意） [Stories タブ]              │
│    • 複数プロファイルの音声をタイムラインに配置           │
│    • トリミング・並べ替え → ステレオ WAV にミックス書出し  │
│    • ポッドキャストや会話シーンの一括制作に最適           │
└──────────────────────┬──────────────────────────────┘
                       ▼
┌─────────────────────────────────────────────────────┐
│ 6. エクスポート / API 連携                            │
│    • WAV ダウンロード（右クリック → Export）             │
│    • REST API 経由で外部アプリから生成:                  │
│      POST http://localhost:17493/generate             │
│      { "text": "...", "profile_id": "...",            │
│        "engine": "qwen", "language": "en" }           │
└─────────────────────────────────────────────────────┘

GPU は自動検出される（Apple Silicon → MLX / NVIDIA → CUDA / AMD → ROCm / CPU フォールバック）。モデル管理タブからロード・アンロード・ダウンロードを GUI で操作でき、VRAM を手動で解放することも可能。

This site is open source. Improve this page.