github-trend-summarizer

GenericAgent — 自己進化する汎用エージェント

これは何?

LLM(Claude / GPT / Gemini 等)に PC のフル制御権限(ブラウザ・ターミナル・ファイル・マウス/キーボード・画面認識・ADB によるモバイル)を与え、タスクを自律実行させるエージェントフレームワーク。コア実装はわずか 約 3,000 行

最大の特徴は スキルツリーの自己成長。タスク遂行の成功パターンを 5 層のメモリ(L0〜L4)に結晶化し、次回以降は蓄積済みスキルを直接呼び出す。使うほど賢くなる。

役割
L0 メタルール 行動原則(システムプロンプト) 「できないと言うな、実行せよ」
L1 インサイト索引 ≤30 行の超圧縮インデックス 高頻度シナリオ → スキルへのポインタ
L2 グローバル事実 環境固有の定数・パス・認証情報 ## [Browser], ## [Paths]
L3 タスクスキル/SOP 再利用可能な手順書・スクリプト web_setup_sop.md, plan_sop.md
L4 セッションアーカイブ 過去タスクの生ログ 長期的な振り返り用

何が嬉しいのか?(既存手段との比較)

観点 GenericAgent OpenClaw Claude Code
コード規模 ~3K 行(見通しが良い) ~530K 行 大規模
デプロイ pip install + API Key のみ マルチサービス構成が必要 CLI + サブスク
ブラウザ制御 実ブラウザ注入(ログイン維持) サンドボックス/ヘッドレス MCP プラグイン経由
OS 制御 マウス/KB・画面Vision・ADB マルチエージェント委譲 ファイル+ターミナル
自己進化 スキルを自動蓄積・再利用 プラグインエコシステム セッション間ステートレス
トークン効率 スキル再利用で 最大 6 倍削減 毎回ゼロから探索

核心的な優位性は 3 つ:

  1. スキル蓄積によるトークン節約 — 一度解いたタスクは SOP 化され、次回は試行錯誤なしに直接実行。従来の「毎回ゼロから探索」型エージェントに対し最大 6 倍のトークン削減。
  2. 実ブラウザ+実 OS 制御 — ヘッドレスブラウザではなく Chrome 拡張経由で実セッションを操作するため、ログイン状態や Cookie がそのまま使える。
  3. 圧倒的なシンプルさ — コア 3K 行、ツールはたった 9 個(code_run, file_read/write/patch, web_scan, web_execute_js, update_working_checkpoint, start_long_term_update, ask_user)。拡張・理解・デバッグが容易。

使うときの流れ

① セットアップ(1 回だけ)
   git clone → pip install streamlit pywebview → mykey.py に API キー記入

② 起動
   python launch.pyw   (Web GUI)
   python agentmain.py (CLI REPL)

③ タスク投入
   自然言語で指示 → エージェントが最大 40 ターン自律実行
   ├─ L1〜L3 メモリから関連スキルを検索・適用
   ├─ 9 個のツールで実行(コード実行、ファイル操作、ブラウザ操作…)
   └─ 不明点は ask_user で人間に確認

④ スキルの自動成長
   成功したタスク → SOP / スクリプトとして memory/ に結晶化
   次回同種タスクは蓄積スキルで高速・低コスト実行

⑤ 応用モード(任意)
   ・Plan モード: 複雑タスクをステップ分割(最大 80 ターン)
   ・自律運行: 30 分以上放置 → TODO リストから自動タスク消化
   ・Reflect/Cron: スケジューラで定期実行
   ・Bot 連携: Telegram / WeChat / Feishu / QQ / DingTalk フロントエンド

最小構成は「API キー 1 つ+ pip install 2 パッケージ」で完結し、使い込むほどスキルが育ってトークンコストが下がっていく、という”投資が効く”設計が GenericAgent の本質的な価値。