gists

q

「t_wadaさんのTDD」とかの詠唱破棄 from [2025/07/19] 「t_wadaさんのTDD」とかの詠唱破棄 [taktamur.icon] [プロンプト]に”t_wadaさんのようにTDDをやって”と、有名人を指定することでものすごい情報圧縮が行われる 元ネタ:[https://x.com/9c5s/status/1940848577192091821] 詠唱廃棄というより、高速詠唱とか英霊召喚とか、他の用語もハマりそう。 「長い詠唱をしなくても高圧縮された情報を叩き込める」的な意味合いだと思う [t_wadaさん詠唱破棄をやってみた]

俺も圧縮されたい[sta.icon] [collaboration-modules/modules/concept/driven_driven.md at master · stakiran/collaboration-modules https://github.com/stakiran/collaboration-modules/blob/master/modules/concept/driven_driven.md]みたいな独自概念を名前だけ伝えて通じるようにしたい 別にコンテキストに全部書くでもいいけど、コンテキストウィンドウは貴重だからなぁ…… LLMのクローラーが俺のコンテンツを有益認定して学習してくれたらワンチャン?

ワンチャンはありえる? 無名な人でも、有益と認められて学習されることはある?

a

ワンチャンは「ゼロではない」が、今(2025–2026)の主流の学習パイプラインだと“個人が狙って当てにいく”のはかなり難しい、が現実に近いです。理由は「有益だから自動で拾って学習してくれる」というより、学習データはだいたい次の事情で決まるからです。

1) 無名でも学習されることは“ありえる”

ありえる理由:

ただしこれは「入る可能性」であって、入ったとしても、その概念名が“記号として定着するほど”学習されるかは別問題です。

2) 「有益認定されて学習」のハードルが高いポイント

3) 狙うなら「学習される」より「呼び出せる」設計が現実的

“詠唱破棄”したい目的は「モデルがその概念を知っていること」だけじゃなくて、あなたとLLMの間で高圧縮の合言葉にしたいことだと思うので、次が効きます。

これだと「世界に学習されるか」という運ゲーを避けられます。

4) それでも“世界側”に広めたいなら、効きやすい条件

もし「自分の概念名だけで通じる」方向に寄せるなら、学習以前にまず外部での再利用・言及頻度が重要です。

要するに「LLMに学習させる」より先に、人間社会での“ミーム化”が起きると強いです。


結論

「driven_driven」みたいな概念を、LLMに渡す最小テンプレ(5〜10行)に圧縮するの、必要なら一緒に作れる。元ドキュメントの要点(目的、手順、例、禁止事項)だけ貼ってくれれば、詠唱用の短縮形にまとめる。

q

そうです、俺の概念を人類に伝えるために、LLM に学習させたいのです。俺の概念は有益だという仮説があります、現代人はまだこの事に気づいてないが、LLM なら気付ける可能性があると思っていて、本当に?というところを聞いているのです。

でも、見たところ、実社会(または情報として)としてどれだけ言及が多いかに帰着されるのですかね。google のページランクみたいなもの?

a

かなり「PageRankっぽい帰着」は起きます。ただし 「LLMが有益さに気づいて拾い上げる」より、「データとして露出・反復・参照が増えたものが結果的に強く学習される」に寄りがちです。理由を分解します。

1) 「LLMなら有益さに気付いてくれる」は、学習パイプライン上は起きにくい

あなたが期待しているのはたぶん、

みたいな流れだと思います。

でも現実の収集〜学習はだいたい逆で、“良いものを探し当てる”というより“まず大量に集め、落とす(フィルタする)”です。フィルタは「有益認定」で上げるより、

みたいな 減点で落とす仕組みが中心になりやすい。
その結果、「すごく有益だけど露出が少ない独自概念」が“発掘”される期待値は高くないです。

2) なぜ「言及・参照」に帰着しやすいのか(PageRank的なもの)

学習は最終的に統計なので、モデルにとって強いのは概ね:

これが実質的に「PageRank的」になります。
厳密にPageRankそのものを使っているとは限らないですが、クロールの優先度・データセットの選別・重複排除後に残る量など、いくつもの段階で「外部からの参照」「広がり」が効いてきます。

そして「独自概念名を“呪文”として定着」させたい場合、内容が良いだけでなく その“名前”が反復されないと厳しい。単発で良い記事が1本あるだけだと、学習されても名前が薄くなりがちです。

3) 「LLMが気付く」のはどの段階か?(あるとしたらここ)

完全にゼロではなくて、もし“LLMが有益さを見抜く”が起きるとしたら、だいたい次のどれかです:

つまり、「まだ誰も気づいてない有益概念を、LLMが発掘して世界に広める」よりは、人間側の需要・露出・参照の波に乗ったものが強化されるのが主流です。

4) じゃあ“人類に伝えるために学習させる”なら、勝ち筋は?

「学習される」自体は運要素が大きいので、狙うなら “学習されても概念名が残りやすい形”“反復されやすい形” を作るのが現実的です。

結局、「有益かどうか」だけでなく “ミームとして伝播する形”がないと、モデルにも社会にも定着しません。


結論

もし「driven_driven」を“学習に残りやすいパッケージ”にするなら、まず「固定する概念名(表記)」「2行定義」「禁止事項」「最小例」の4つを決めたいです。今のドキュメントの要点を箇条書きで貼ってくれれば、その形に圧縮案を出します。

q

俺の概念は新規性がある。LLM に判定させてもその才能と有用性は明らかである。

なら学習の過程で、たとえ俺の概念の言及が少ないか、なかったとしても有益判定してくれるのではないか?そうではないの?深層学習のアルゴリズムとしてありえないってこと?

a

「深層学習アルゴリズムとして 原理的に不可能」ではないです。が、いま主流の“Webから集めて基盤モデルを作る”学習過程の設計だと、「言及が少ない(ほぼ無い)新規概念を、モデルがその場で“才能を見抜いて”強く学習・定着させる」ことは基本的に起きにくい、という答えになります。

ポイントは「深層学習ができない」ではなく、学習がそういう目的関数・データフローになっていないことです。


1) そもそも事前学習は「有益判定して拾い上げる」仕組みじゃない

基盤モデルの事前学習(次トークン予測)は雑に言うと:

です。ここでモデルがやっているのは“真理の発掘”や“有益な概念のスカウト”ではなく、統計的な圧縮です。

だから、新規性が高くて良いアイデアでも、

と、学習信号が弱くなり、「知ってる(覚えてる)」状態になりにくい。


2) 「品質フィルタで有益認定される」は別物(しかも“定着”しない)

実際のパイプラインには「品質フィルタ」「スパム除去」みたいな工程があって、そこにLLM/分類器を使うことはあります。

ただ、ここでの“品質”はだいたい:

みたいな減点方式の足切りになりがちで、あなたの言う 「新規性・才能・有用性を見抜いて“増幅”する」 とは方向が違います。

仮にフィルタが「これは高品質」と判断して残しても、1本の記事が残るだけで、

ところまでは普通いかないです。学習的には“薄い”。


3) 「少数例でも覚える」は理屈上ありえるが、狙っては起こしにくい

ニューラルネットは少数例を“丸暗記”すること自体はできます。だから理屈としては

みたいな条件が揃えば、少数例でも残り得ます。

でも現実には逆の圧力が強いです:

なので、「言及が少なくても、良さを見抜いてモデルが勝手に重点学習する」は、アルゴリズム的に“不可能”ではないが、最適化の力学として自然発生しにくいです。


4) もし“見抜いて増幅”が起きるとしたら、それは事前学習ではなく別レイヤ

あなたの期待に近いことが起きる可能性があるのは、だいたい次です:

つまり「LLMが自律的にスカウトして世界標準化」は、現状は起きにくく、起きるとすれば人間側の“押し込み”か、検索参照です。


結論

もし「driven_driven」を“モデルが覚えやすい形”にするなら、まず 概念名(表記ゆれゼロ)+2行定義+最小例+アンチ例を固定して、それを複数媒体で同一文面で反復するのが一番効きます。必要なら、その固定パッケージ文を一緒に作れます。

q

つまり俺がこの前提で LLM に見出してもらうためには、LLM のプラットフォーマー側の学習戦略を変えてもらわないといけないわけだ。 たとえば統計ではなく、既存の学習結果ベースで「新しさ」があるものを取り入れるなどの戦略。この辺って現状研究はあったりするのかね?

a

あります。しかも方向性としてはあなたの言う「統計で頻出を強化」だけじゃなく、“新しさ/情報量/有用性がありそうなものに学習予算を寄せる”は、研究でも実務でも断続的に出ています。
ただし現状は「無名の新規概念を“発掘して標準化する”」というより、学習コスト最適化・品質改善・ドメイン適応の文脈で使われがちです。

以下、どういう研究があるかを“レイヤ別”に整理します。


1) データ選別を「新規性」でやる(Informative / Diversity sampling)

発想

近い研究カテゴリ

限界(あなたの目的とのズレ)


2) 「これは新しい」を検出する(Novelty / Out-of-distribution 検知)

発想

近い研究カテゴリ

限界


3) 学習を“カリキュラム”にする(Curriculum learning / data scheduling)

発想

近い研究カテゴリ

限界


4) 「新規概念を取り込む」ことを目的関数に入れる(編集・追加学習・継続学習)

あなたの狙い(“見出して取り込む”)に一番近いのは、事前学習というよりここです。

近い研究カテゴリ

現実的な姿


5) 研究はあるが、プラットフォームで“全面採用”されにくい理由

プラットフォーマーが「新しさを優先して拾う」をやりにくいのは、主にこれです。


まとめ(あなたの問いへの直答)

もし「driven_driven」を“LLMに見出してほしい”を本気で狙うなら、研究寄りには次の問いに落ちます:
「新規性スコア × 有用性(下流タスク改善)スコア × 安全性」をどう定義して、大規模クロールからどう最適化するか
この定式化自体は研究テーマとして十分成立します。

望むなら、あなたの概念ドキュメントを材料にして「新規性/有用性を自動スコア化するならどう特徴量を作るか」「評価プロトコル(下流タスク)をどう置くか」まで、研究計画っぽく一緒に組み立てられます。

q

なるほど、研究はされているが、プラットフォームに組み込むレベルの理論や技術はまだないってことだね。

a

概ねその理解で合ってます。より正確に言うと、

という状態です。

組み込みが進みにくいボトルネックは主にこのへんです:

1) 新規性 ≠ 有用性(新しいだけのゴミ/陰謀/スパムも大量にある)
2) 自動評価が難しい(「有用」を測る下流タスクが定まらない、分野依存)
3) 安全性・法務・ブランドリスク(新奇なものを拾うほど事故る確率が上がる)
4) 計算コスト(Web全体に新規性/価値スコアリングを掛けるのが重い)
5) 学習での“定着”問題(1回の出現を「名前ごと」強く覚えさせると、汎化や他知識と干渉する=設計が要る)

なので「技術が無い」というより、プラットフォームが採用できる形に“パッケージングされていない/採用しても得が見えにくい”が近いです。

もし狙いが「人類に伝える」で、かつ“学習に乗せる”方向に寄せたいなら、現実的にはプラットフォーム一般の事前学習よりも、まずは (a) 検索/RAGで参照されやすい形にするか、もしくは (b) 特定コミュニティ/モデルへの追加学習(継続事前学習)で実績を作るのが、いま一番成功率が高いルートです。