OpenSRE は Tracer-Cloud が開発する、自前の AI SRE(Site Reliability Engineer)エージェントを構築・運用・評価するためのオープンソース・フレームワーク(Apache 2.0、Python 製、Public Alpha)。
opensre CLI + LangGraph ベースのパイプライン(app/graph_pipeline.py, app/nodes/, app/pipeline/)。Anthropic / OpenAI / Ollama / Gemini / OpenRouter / NVIDIA NIM / Bedrock を差し替え可能。app/integrations/ として実装。tests/synthetic/(採点付きの合成 RCA シナリオ)と tests/e2e/(Kubernetes / EC2 / Lambda / ECS Fargate / Flink 等の実クラウド E2E)。将来的に AI SRE 版 SWE-bench を目指すベンチマーク基盤でもある。opensre remote ops logs/status/restart)にも対応。| 比較対象 | 既存の手段 | OpenSRE の嬉しさ |
|---|---|---|
| PagerDuty AIOps / Datadog Watchdog / New Relic AI など商用 AIOps | SaaS にログを送り、クローズドなモデルで相関解析。ブラックボックスかつ自社データが外に出る。 | Apache 2.0・自社インフラで完結。生ログはセッション外に保持しない。LLM・プロンプト・ツール呼び出しが監査可能。 |
| 自作 LangChain / LangGraph エージェント | 統合(Datadog, k8s, Slack, GitHub …)を全部自分で書く必要。評価基盤も自前。 | 60+ 統合と LangGraph パイプライン、CLI、onboarding がすでに揃う。テスト用合成インシデントと E2E スイートが同梱され、精度改善のループが回せる。 |
| Runbook 自動化(Rundeck, StackStorm) | 事前に書いたスクリプトを実行するだけで「診断」は人間。 | Runbook を読み取って推論し、証拠リンク付き RCA を出して Slack / PagerDuty に要約投稿。 |
| コード用 SWE-bench 系ベンチ | コード修正用で、分散システム障害には使えない。 | 分散障害・敵対的なノイズを含む本番 RCA 用のベンチ兼訓練環境を志向。 |
要するに「自分の環境に閉じた AI SRE を、統合と評価セットごと手に入れられる」点が中核価値。
curl … install.sh | bash / brew install Tracer-Cloud/opensre/opensre / irm install.ps1 | iex。開発参加なら git clone && make install。opensre onboard で LLM プロバイダ(Anthropic など)を選び、Grafana / Datadog / Honeycomb / Coralogix / Slack / AWS / GitHub MCP / Sentry 等の認証情報を検証・保存。tests/e2e/kubernetes/fixtures/datadog_k8s_alert.json)を opensre investigate -i <alert.json> に渡すと、
make benchmark / make test-rca で合成 RCA を採点、tests/e2e/ で実クラウドシナリオを回して回帰を防ぐ。opensre deploy railway --project … --service …(事前に Postgres/Redis と DATABASE_URI/REDIS_URI を設定)でホスティング。運用後は opensre remote ops status/logs --follow/restart で面倒を見る。opensre update で CLI を更新。統合追加・runbook 改善は CONTRIBUTING.md に沿って PR。テレメトリは OPENSRE_NO_TELEMETRY=1 でオフ可能。