LLM(Claude / GPT / Gemini 等)に PC のフル制御権限(ブラウザ・ターミナル・ファイル・マウス/キーボード・画面認識・ADB によるモバイル)を与え、タスクを自律実行させるエージェントフレームワーク。コア実装はわずか 約 3,000 行。
最大の特徴は スキルツリーの自己成長。タスク遂行の成功パターンを 5 層のメモリ(L0〜L4)に結晶化し、次回以降は蓄積済みスキルを直接呼び出す。使うほど賢くなる。
| 層 | 役割 | 例 |
|---|---|---|
| L0 メタルール | 行動原則(システムプロンプト) | 「できないと言うな、実行せよ」 |
| L1 インサイト索引 | ≤30 行の超圧縮インデックス | 高頻度シナリオ → スキルへのポインタ |
| L2 グローバル事実 | 環境固有の定数・パス・認証情報 | ## [Browser], ## [Paths] |
| L3 タスクスキル/SOP | 再利用可能な手順書・スクリプト | web_setup_sop.md, plan_sop.md |
| L4 セッションアーカイブ | 過去タスクの生ログ | 長期的な振り返り用 |
| 観点 | GenericAgent | OpenClaw | Claude Code |
|---|---|---|---|
| コード規模 | ~3K 行(見通しが良い) | ~530K 行 | 大規模 |
| デプロイ | pip install + API Key のみ |
マルチサービス構成が必要 | CLI + サブスク |
| ブラウザ制御 | 実ブラウザ注入(ログイン維持) | サンドボックス/ヘッドレス | MCP プラグイン経由 |
| OS 制御 | マウス/KB・画面Vision・ADB | マルチエージェント委譲 | ファイル+ターミナル |
| 自己進化 | スキルを自動蓄積・再利用 | プラグインエコシステム | セッション間ステートレス |
| トークン効率 | スキル再利用で 最大 6 倍削減 | — | 毎回ゼロから探索 |
核心的な優位性は 3 つ:
code_run, file_read/write/patch, web_scan, web_execute_js, update_working_checkpoint, start_long_term_update, ask_user)。拡張・理解・デバッグが容易。① セットアップ(1 回だけ)
git clone → pip install streamlit pywebview → mykey.py に API キー記入
② 起動
python launch.pyw (Web GUI)
python agentmain.py (CLI REPL)
③ タスク投入
自然言語で指示 → エージェントが最大 40 ターン自律実行
├─ L1〜L3 メモリから関連スキルを検索・適用
├─ 9 個のツールで実行(コード実行、ファイル操作、ブラウザ操作…)
└─ 不明点は ask_user で人間に確認
④ スキルの自動成長
成功したタスク → SOP / スクリプトとして memory/ に結晶化
次回同種タスクは蓄積スキルで高速・低コスト実行
⑤ 応用モード(任意)
・Plan モード: 複雑タスクをステップ分割(最大 80 ターン)
・自律運行: 30 分以上放置 → TODO リストから自動タスク消化
・Reflect/Cron: スケジューラで定期実行
・Bot 連携: Telegram / WeChat / Feishu / QQ / DingTalk フロントエンド
最小構成は「API キー 1 つ+ pip install 2 パッケージ」で完結し、使い込むほどスキルが育ってトークンコストが下がっていく、という”投資が効く”設計が GenericAgent の本質的な価値。