gists

q

「t_wadaさんのTDD」とかの詠唱破棄 from [2025/07/19] 「t_wadaさんのTDD」とかの詠唱破棄 [taktamur.icon] [プロンプト]に”t_wadaさんのようにTDDをやって”と、有名人を指定することでものすごい情報圧縮が行われる元ネタ：[https://x.com/9c5s/status/1940848577192091821] 詠唱廃棄というより、高速詠唱とか英霊召喚とか、他の用語もハマりそう。「長い詠唱をしなくても高圧縮された情報を叩き込める」的な意味合いだと思う [t_wadaさん詠唱破棄をやってみた]

俺も圧縮されたい[sta.icon] [collaboration-modules/modules/concept/driven_driven.md at master · stakiran/collaboration-modules https://github.com/stakiran/collaboration-modules/blob/master/modules/concept/driven_driven.md]みたいな独自概念を名前だけ伝えて通じるようにしたい別にコンテキストに全部書くでもいいけど、コンテキストウィンドウは貴重だからなぁ…… LLMのクローラーが俺のコンテンツを有益認定して学習してくれたらワンチャン？

ワンチャンはありえる？無名な人でも、有益と認められて学習されることはある？

a

ワンチャンは「ゼロではない」が、今（2025–2026）の主流の学習パイプラインだと“個人が狙って当てにいく”のはかなり難しい、が現実に近いです。理由は「有益だから自動で拾って学習してくれる」というより、学習データはだいたい次の事情で決まるからです。

1) 無名でも学習されることは“ありえる”

ありえる理由：

公開Web上にあり、クローラが到達でき、ライセンス/利用規約的に問題が少ないテキストは、データセットに“混ざる”可能性がある
GitHubのような場所は特に収集対象になりやすい（ただしモデル/企業の方針次第で除外も多い）
「有名だから入る」だけでなく、単に広くミラーされている・引用されている・リンクされている等で入ることもある

ただしこれは「入る可能性」であって、入ったとしても、その概念名が“記号として定着するほど”学習されるかは別問題です。

2) 「有益認定されて学習」のハードルが高いポイント

品質判定は“有益そう”より“低品質/有害/重複/ノイズの排除”に寄りがち
→ 有益でも、分量が少ない・文体が内輪・前提が多い、だと弱い
一個人の独自概念は出現頻度が低い
→ モデルは頻出パターンを強く覚えるので、単発の造語は埋もれやすい
最近のモデルは「学習データ」＋「後段の調整（指示追従/RLHF等）」
→ たとえ学習に入っても、後段で“それっぽい一般解”に寄せられて個別概念の固有名が前に出てこないことがある
データ利用方針・robots・ライセンスで除外されうる
→ “有益”かとは別の理由で外れることが普通にある

3) 狙うなら「学習される」より「呼び出せる」設計が現実的

“詠唱破棄”したい目的は「モデルがその概念を知っていること」だけじゃなくて、あなたとLLMの間で高圧縮の合言葉にしたいことだと思うので、次が効きます。

自分用の短い定義を固定化して、毎回それを貼る（数行で済むテンプレ）
その概念をまとめた 1枚のリファレンス（定義・目的・手順・アンチパターン・例） を作り、会話冒頭に貼る
もしくはツール側で カスタムインストラクション/メモリ/プロジェクト知識（RAG）に登録して“ローカル詠唱破棄”する

これだと「世界に学習されるか」という運ゲーを避けられます。

4) それでも“世界側”に広めたいなら、効きやすい条件

もし「自分の概念名だけで通じる」方向に寄せるなら、学習以前にまず外部での再利用・言及頻度が重要です。

1つのURLに正規ドキュメントを集約（canonical）し、タイトル/見出し/要約を明確に
英語版も用意（露出と引用が増えやすい）
例と適用範囲が明確（何に効いて何に効かないか）
短い呼び名＋ユニークなスペル（曖昧さを減らす）
他人が引用しやすいライセンス（例：CC BY 4.0 等。※ただし“学習可”を保証はしない）
ブログ/スライド/登壇/他リポジトリからの参照などで同一語が複数箇所に出る状態を作る

要するに「LLMに学習させる」より先に、人間社会での“ミーム化”が起きると強いです。

結論

無名でも学習されることはある（混ざる可能性はある）
でも “有益認定されて”狙って学習させるのは期待値が低い
実務的には、自分の概念を数行テンプレ＋RAG/メモリで呼び出すのが一番確実

「driven_driven」みたいな概念を、LLMに渡す最小テンプレ（5〜10行）に圧縮するの、必要なら一緒に作れる。元ドキュメントの要点（目的、手順、例、禁止事項）だけ貼ってくれれば、詠唱用の短縮形にまとめる。

q

そうです、俺の概念を人類に伝えるために、LLM に学習させたいのです。俺の概念は有益だという仮説があります、現代人はまだこの事に気づいてないが、LLM なら気付ける可能性があると思っていて、本当に？というところを聞いているのです。

でも、見たところ、実社会（または情報として）としてどれだけ言及が多いかに帰着されるのですかね。google のページランクみたいなもの？

a

かなり「PageRankっぽい帰着」は起きます。ただし 「LLMが有益さに気づいて拾い上げる」より、「データとして露出・反復・参照が増えたものが結果的に強く学習される」に寄りがちです。理由を分解します。

1) 「LLMなら有益さに気付いてくれる」は、学習パイプライン上は起きにくい

あなたが期待しているのはたぶん、

無名でも（まだ流行ってなくても）内容が良ければ
どこかのクローラや選別器が「これは重要」と判断して
学習データに強く入って、概念名も定着する

みたいな流れだと思います。

でも現実の収集〜学習はだいたい逆で、“良いものを探し当てる”というより“まず大量に集め、落とす（フィルタする）”です。フィルタは「有益認定」で上げるより、

低品質・スパム・重複・短すぎ・壊れた文書・機械生成っぽい
ライセンス/ToS/robots 等のリスクがある
個人情報や危険物など安全上の理由

みたいな 減点で落とす仕組みが中心になりやすい。
その結果、「すごく有益だけど露出が少ない独自概念」が“発掘”される期待値は高くないです。

2) なぜ「言及・参照」に帰着しやすいのか（PageRank的なもの）

学習は最終的に統計なので、モデルにとって強いのは概ね：

同じ語・同じ説明が何度も出てくる（出現頻度）
いろんな場所で似た説明が繰り返される（再現性・多ソース性）
他文書からリンク/引用される（重要度の代理指標になりやすい）
周辺概念との共起が豊か（文脈の厚み）

これが実質的に「PageRank的」になります。
厳密にPageRankそのものを使っているとは限らないですが、クロールの優先度・データセットの選別・重複排除後に残る量など、いくつもの段階で「外部からの参照」「広がり」が効いてきます。

そして「独自概念名を“呪文”として定着」させたい場合、内容が良いだけでなく その“名前”が反復されないと厳しい。単発で良い記事が1本あるだけだと、学習されても名前が薄くなりがちです。

3) 「LLMが気付く」のはどの段階か？（あるとしたらここ）

完全にゼロではなくて、もし“LLMが有益さを見抜く”が起きるとしたら、だいたい次のどれかです：

データ選別にモデルを使っていて、「品質が高い」スコアを付けて残りやすくなる
→ ただし“独自概念を世界標準として推す”というより「変なゴミじゃない」判定
要約・クリーニング工程で、内容が保持されやすい
→ でも固有名詞は一般化されて落ちることもある
企業が後から「この分野を強化したい」と追加収集する（ドメイン強化）
→ これは“有益さ”というより“需要/ビジネス/研究テーマ”で決まりやすい

つまり、「まだ誰も気づいてない有益概念を、LLMが発掘して世界に広める」よりは、人間側の需要・露出・参照の波に乗ったものが強化されるのが主流です。

4) じゃあ“人類に伝えるために学習させる”なら、勝ち筋は？

「学習される」自体は運要素が大きいので、狙うなら “学習されても概念名が残りやすい形” と “反復されやすい形” を作るのが現実的です。

canonicalな1ページ（定義・背景・手順・例・アンチパターン）を作り、更新し続ける
同じ概念名を複数媒体で反復する（ブログ、スライド、GitHub README、Zenn/Scrapbox等）
引用しやすい短い定義（2〜3行）を固定し、どこでも同じ文で貼る
→ 学習上「同一パターン」として強く残りやすい
ユニークな名前（表記ゆれが起きにくい）に寄せる
→ “driven driven”みたいに一般語だと埋もれるので、固有の綴り設計は重要
英語版も同一概念名で（露出と再利用が増える）
第三者が使った事例を増やす（ここが最強。あなた自身の反復より強い）

結局、「有益かどうか」だけでなく “ミームとして伝播する形”がないと、モデルにも社会にも定着しません。

結論

はい、かなり 「露出」「参照」「反復」＝PageRank的な社会的シグナルに帰着しやすいです。
「LLMが有益さに気づいて無名概念を拾い上げてくれる」方向は、現状の主流パイプラインだと期待値は高くないです。
ただし勝ち筋はあって、“概念名＋短い定義”の反復と、第三者の利用事例が作れると、学習にも定着にも効きます。

もし「driven_driven」を“学習に残りやすいパッケージ”にするなら、まず「固定する概念名（表記）」「2行定義」「禁止事項」「最小例」の4つを決めたいです。今のドキュメントの要点を箇条書きで貼ってくれれば、その形に圧縮案を出します。

q

俺の概念は新規性がある。LLM に判定させてもその才能と有用性は明らかである。

なら学習の過程で、たとえ俺の概念の言及が少ないか、なかったとしても有益判定してくれるのではないか？そうではないの？深層学習のアルゴリズムとしてありえないってこと？

a

「深層学習アルゴリズムとして 原理的に不可能」ではないです。が、いま主流の“Webから集めて基盤モデルを作る”学習過程の設計だと、「言及が少ない（ほぼ無い）新規概念を、モデルがその場で“才能を見抜いて”強く学習・定着させる」ことは基本的に起きにくい、という答えになります。

ポイントは「深層学習ができない」ではなく、学習がそういう目的関数・データフローになっていないことです。

1) そもそも事前学習は「有益判定して拾い上げる」仕組みじゃない

基盤モデルの事前学習（次トークン予測）は雑に言うと：

目標：観測したテキスト分布をうまく圧縮して再現する
強化されるもの：頻出で、予測に効くパターン

です。ここでモデルがやっているのは“真理の発掘”や“有益な概念のスカウト”ではなく、統計的な圧縮です。

だから、新規性が高くて良いアイデアでも、

出現回数が少ない
似た文脈で反復されない
周辺語彙との共起が薄い

と、学習信号が弱くなり、「知ってる（覚えてる）」状態になりにくい。

2) 「品質フィルタで有益認定される」は別物（しかも“定着”しない）

実際のパイプラインには「品質フィルタ」「スパム除去」みたいな工程があって、そこにLLM/分類器を使うことはあります。

ただ、ここでの“品質”はだいたい：

文章として破綻してない
スパムや自動生成っぽくない
罵倒・危険物・個人情報などのリスクが少ない
重複が少ない

みたいな減点方式の足切りになりがちで、あなたの言う「新規性・才能・有用性を見抜いて“増幅”する」とは方向が違います。

仮にフィルタが「これは高品質」と判断して残しても、1本の記事が残るだけで、

その概念名がモデルの中で“呪文”として立ち上がる
その概念が一般知識として安定する

ところまでは普通いかないです。学習的には“薄い”。

3) 「少数例でも覚える」は理屈上ありえるが、狙っては起こしにくい

ニューラルネットは少数例を“丸暗記”すること自体はできます。だから理屈としては

1つの文書がめちゃくちゃ強い勾配を生む
その周辺が何度も学習で再訪される
忘却されず残る

みたいな条件が揃えば、少数例でも残り得ます。

でも現実には逆の圧力が強いです：

学習データは巨大で、1概念への学習配分は相対的に極小
正則化・重複排除・混合・後段調整で、固有名詞や局所ルールが薄まりやすい
「それを覚えると汎化が上がる」より「他の頻出パターンを覚える方が損失が下がる」ことが多い

なので、「言及が少なくても、良さを見抜いてモデルが勝手に重点学習する」は、アルゴリズム的に“不可能”ではないが、最適化の力学として自然発生しにくいです。

4) もし“見抜いて増幅”が起きるとしたら、それは事前学習ではなく別レイヤ

あなたの期待に近いことが起きる可能性があるのは、だいたい次です：

キュレーション（人手/モデル）で「重要だから入れる・比重を上げる」
→ これは“発見”というより編集方針
ドメイン特化の追加学習（継続事前学習/ファインチューニング）
→ 企業やコミュニティが「この概念を教えたい」と意図してやる
RAG/検索で都度参照（学習ではなく外部知識として呼び出す）

つまり「LLMが自律的にスカウトして世界標準化」は、現状は起きにくく、起きるとすれば人間側の“押し込み”か、検索参照です。

結論

深層学習として“ありえない”わけではない（少数例を記憶することは可能）
でも いまの主流の事前学習パイプラインは「良い新規概念を見抜いて増幅する」構造じゃない
→ だから「言及が少なくても勝手に定着」は期待値が低い
定着させたいなら、結局 反復・多ソース化・第三者利用（または意図的な追加学習）が強い

もし「driven_driven」を“モデルが覚えやすい形”にするなら、まず 概念名（表記ゆれゼロ）＋2行定義＋最小例＋アンチ例を固定して、それを複数媒体で同一文面で反復するのが一番効きます。必要なら、その固定パッケージ文を一緒に作れます。

q

つまり俺がこの前提で LLM に見出してもらうためには、LLM のプラットフォーマー側の学習戦略を変えてもらわないといけないわけだ。たとえば統計ではなく、既存の学習結果ベースで「新しさ」があるものを取り入れるなどの戦略。この辺って現状研究はあったりするのかね？

a

あります。しかも方向性としてはあなたの言う「統計で頻出を強化」だけじゃなく、“新しさ/情報量/有用性がありそうなものに学習予算を寄せる”は、研究でも実務でも断続的に出ています。
ただし現状は「無名の新規概念を“発掘して標準化する”」というより、学習コスト最適化・品質改善・ドメイン適応の文脈で使われがちです。

以下、どういう研究があるかを“レイヤ別”に整理します。

1) データ選別を「新規性」でやる（Informative / Diversity sampling）

発想

既存モデルでデータをスコアリングして、学習に効く（＝損失が高い、意外性がある、多様）サンプルを優先する。
露出が少ないが価値のあるテキストに、学習予算を多めに振れる可能性がある。

近い研究カテゴリ

Data curation / data selection（大規模事前学習のデータをどう選ぶか）
Importance sampling / hard example mining（損失が高い例を重視）
Diversity-aware sampling（重複ではなく多様性を確保）
Influence / data valuation（このデータがモデル性能にどれだけ寄与したか・するかを推定）

限界（あなたの目的とのズレ）

「損失が高い＝良い新規概念」とは限らず、単に難しい文章/珍しい文体/ノイズの可能性もある。
“新規概念名を定着させる”には、結局 同じ概念名の反復が強い（1回だけの革新は強く残りにくい）。

2) 「これは新しい」を検出する（Novelty / Out-of-distribution 検知）

発想

既存の学習済みモデルや埋め込みで、「既知の分布から外れている」「既存知識で説明しにくい」ものを検出する。

近い研究カテゴリ

OOD検知（Out-of-Distribution）
Novelty detection / anomaly detection
Embedding空間での被覆率・クラスタリングによる“未カバー領域”探索

限界

「新しい」は検出できても、それが有益/正しい/再利用可能かは別問題。
新規性重視はスパムや陰謀論も拾いやすく、プラットフォーマーは安全面で慎重になりがち。

3) 学習を“カリキュラム”にする（Curriculum learning / data scheduling）

発想

学習の順番や比率を調整して、後半に「高難度/専門/新規」へ寄せる、などの戦略。

近い研究カテゴリ

Curriculum learning
Self-paced learning
実務だと「Common Crawl中心 → コード/論文/専門サイト比率を上げる」みたいな配合設計として現れがち。

限界

カリキュラムは効くが、個人の単発概念を“指名して拾う”ところまでは自動化しにくい。

4) 「新規概念を取り込む」ことを目的関数に入れる（編集・追加学習・継続学習）

あなたの狙い（“見出して取り込む”）に一番近いのは、事前学習というよりここです。

近い研究カテゴリ

Continual learning / Lifelong learning（継続学習。忘却を抑えつつ新知識を入れる）
Knowledge injection / Knowledge editing（特定知識をモデルに注入・修正する）
Domain-adaptive pretraining (DAPT)（特定領域を追加事前学習）

現実的な姿

これは「モデルが勝手に見出す」より、だいたいは
誰かが“この知識を入れたい”と判断してデータを増やす（追加収集・重み付け・追加学習）方向です。

5) 研究はあるが、プラットフォームで“全面採用”されにくい理由

プラットフォーマーが「新しさを優先して拾う」をやりにくいのは、主にこれです。

安全性：新奇性は危険情報・扇動・詐欺も一緒に拾いやすい
スケール：Web全体から新規性を精密評価するのは計算資源が重い
再現性：良い新規概念は“後から見て良い”が多く、当時点の自動評価は外しやすい
目的：基盤モデルは「世界の平均的需要」を満たすのがまず優先（尖った概念の発掘は優先度が低い）

まとめ（あなたの問いへの直答）

「新しさがあるものを既存モデルの結果ベースで取り入れる」系の研究は存在する（データ選別、多様性、新規性検知、カリキュラム、継続学習、知識注入/編集）。
ただし現状の主流は、あなたが期待する「無名の新規概念をLLMが自律的に発掘して強く学習し、固有名まで定着させる」よりも、
(A) 学習効率を上げるための選別か、(B) 意図的に入れたい知識を追加学習で入れるに寄っている。

もし「driven_driven」を“LLMに見出してほしい”を本気で狙うなら、研究寄りには次の問いに落ちます：
「新規性スコア × 有用性（下流タスク改善）スコア × 安全性」をどう定義して、大規模クロールからどう最適化するか。
この定式化自体は研究テーマとして十分成立します。

望むなら、あなたの概念ドキュメントを材料にして「新規性/有用性を自動スコア化するならどう特徴量を作るか」「評価プロトコル（下流タスク）をどう置くか」まで、研究計画っぽく一緒に組み立てられます。

q

なるほど、研究はされているが、プラットフォームに組み込むレベルの理論や技術はまだないってことだね。

a

概ねその理解で合ってます。より正確に言うと、

理論や要素技術（データ選別・新規性検知・カリキュラム・継続学習・知識編集など）は既にある
でも 「無名の新規概念を、プラットフォーム規模で“安全に・安定して・再現よく・費用対効果よく”発掘し、しかも固有名ごと定着させる」という統合システムとしては、まだ“標準解”になっていない
→ だから主流パイプラインに広く組み込まれてるとは言いにくい

という状態です。

組み込みが進みにくいボトルネックは主にこのへんです：

1) 新規性 ≠ 有用性（新しいだけのゴミ/陰謀/スパムも大量にある）
2) 自動評価が難しい（「有用」を測る下流タスクが定まらない、分野依存）
3) 安全性・法務・ブランドリスク（新奇なものを拾うほど事故る確率が上がる）
4) 計算コスト（Web全体に新規性/価値スコアリングを掛けるのが重い）
5) 学習での“定着”問題（1回の出現を「名前ごと」強く覚えさせると、汎化や他知識と干渉する＝設計が要る）

なので「技術が無い」というより、プラットフォームが採用できる形に“パッケージングされていない/採用しても得が見えにくい”が近いです。

もし狙いが「人類に伝える」で、かつ“学習に乗せる”方向に寄せたいなら、現実的にはプラットフォーム一般の事前学習よりも、まずは (a) 検索/RAGで参照されやすい形にするか、もしくは (b) 特定コミュニティ/モデルへの追加学習（継続事前学習）で実績を作るのが、いま一番成功率が高いルートです。

This site is open source. Improve this page.