github-trend-summarizer

GenericAgent — 自己進化する汎用エージェント

これは何？

LLM（Claude / GPT / Gemini 等）に PC のフル制御権限（ブラウザ・ターミナル・ファイル・マウス/キーボード・画面認識・ADB によるモバイル）を与え、タスクを自律実行させるエージェントフレームワーク。コア実装はわずか 約 3,000 行。

最大の特徴は スキルツリーの自己成長。タスク遂行の成功パターンを 5 層のメモリ（L0〜L4）に結晶化し、次回以降は蓄積済みスキルを直接呼び出す。使うほど賢くなる。

層	役割	例
L0 メタルール	行動原則（システムプロンプト）	「できないと言うな、実行せよ」
L1 インサイト索引	≤30 行の超圧縮インデックス	高頻度シナリオ → スキルへのポインタ
L2 グローバル事実	環境固有の定数・パス・認証情報	`## [Browser]`, `## [Paths]`
L3 タスクスキル/SOP	再利用可能な手順書・スクリプト	`web_setup_sop.md`, `plan_sop.md`
L4 セッションアーカイブ	過去タスクの生ログ	長期的な振り返り用

何が嬉しいのか？（既存手段との比較）

観点	GenericAgent	OpenClaw	Claude Code
コード規模	~3K 行（見通しが良い）	~530K 行	大規模
デプロイ	`pip install` + API Key のみ	マルチサービス構成が必要	CLI + サブスク
ブラウザ制御	実ブラウザ注入（ログイン維持）	サンドボックス/ヘッドレス	MCP プラグイン経由
OS 制御	マウス/KB・画面Vision・ADB	マルチエージェント委譲	ファイル＋ターミナル
自己進化	スキルを自動蓄積・再利用	プラグインエコシステム	セッション間ステートレス
トークン効率	スキル再利用で最大 6 倍削減	—	毎回ゼロから探索

核心的な優位性は 3 つ：

スキル蓄積によるトークン節約 — 一度解いたタスクは SOP 化され、次回は試行錯誤なしに直接実行。従来の「毎回ゼロから探索」型エージェントに対し最大 6 倍のトークン削減。
実ブラウザ＋実 OS 制御 — ヘッドレスブラウザではなく Chrome 拡張経由で実セッションを操作するため、ログイン状態や Cookie がそのまま使える。
圧倒的なシンプルさ — コア 3K 行、ツールはたった 9 個（code_run, file_read/write/patch, web_scan, web_execute_js, update_working_checkpoint, start_long_term_update, ask_user）。拡張・理解・デバッグが容易。

使うときの流れ

① セットアップ（1 回だけ）
   git clone → pip install streamlit pywebview → mykey.py に API キー記入

② 起動
   python launch.pyw   （Web GUI）
   python agentmain.py （CLI REPL）

③ タスク投入
   自然言語で指示 → エージェントが最大 40 ターン自律実行
   ├─ L1〜L3 メモリから関連スキルを検索・適用
   ├─ 9 個のツールで実行（コード実行、ファイル操作、ブラウザ操作…）
   └─ 不明点は ask_user で人間に確認

④ スキルの自動成長
   成功したタスク → SOP / スクリプトとして memory/ に結晶化
   次回同種タスクは蓄積スキルで高速・低コスト実行

⑤ 応用モード（任意）
   ・Plan モード: 複雑タスクをステップ分割（最大 80 ターン）
   ・自律運行: 30 分以上放置 → TODO リストから自動タスク消化
   ・Reflect/Cron: スケジューラで定期実行
   ・Bot 連携: Telegram / WeChat / Feishu / QQ / DingTalk フロントエンド

最小構成は「API キー 1 つ＋ pip install 2 パッケージ」で完結し、使い込むほどスキルが育ってトークンコストが下がっていく、という”投資が効く”設計が GenericAgent の本質的な価値。

This site is open source. Improve this page.