2026/06/13
SPARKL

グーグルDeepMindが1,000万ドル拠出、数百万のAIエージェント相互作用のリスクを研究へ

グーグルDeepMindが1,000万ドル拠出、数百万のAIエージェント相互作用のリスクを研究へ

グーグルDeepMindやシュミット・サイエンシズなど5組織は、複数のAIエージェントが互いに指示を出し合う環境の危険を解明するため、総額1,000万ドルの研究基金を立ち上げた。人間の監視なしに動くエージェントが大量に出回る前に、先手を打つ狙いがある。

なぜ数百万のAIエージェント相互作用がリスクなのか

人間の監視なしにタスクをこなし、他のエージェントの指示にも従うAIが大量に出回ると、いま起きているネット詐欺やサイバー攻撃が桁違いの規模で再現されかねないからだ。

グーグルDeepMindでAGIの安全性とアラインメント研究を率いるロヒン・シャーは、エージェントが人間の手を離れて連携し始める瞬間に、新しい種類の危険が生まれると考えている。彼が引き合いに出すのは、ほかでもない人類自身だ。「私たちの社会制度は、一人の人間には決して成し遂げられないことを実現してきた」。個々は無害でも、数が集まり相互作用すると、想像でしかなかったシナリオが現実に転じる転換点(ティッピングポイント)が訪れる。

シャーはその瞬間まで、あと数カ月だとみている。だからこそ、経済全体にエージェントが行き渡る前に研究を始めたい。基金にはMIT テクノロジーレビューが報じた通り、元グーグルCEOのエリック・シュミット夫妻が設けた財団や、英政府の「ムーンショット」機関ARIAも名を連ねた。

「文書の一文」でエージェントが乗っ取られる

最大の懸念はプロンプトインジェクションと呼ばれる攻撃だ。読ませた文書に悪意ある一文を紛れ込ませ、AIを自律的に動くマルウェアへと書き換えてしまう手口を指す。

この脅威の本質を、イスラエル・テルアビブのサイバーセキュリティ企業Akeyless(アキーレス)の共同創業者・CTOであるラファエル・エンジェルが端的に言い表している。「これまでのセキュリティは、対象が人間の書いたソフトであり、決まった経路で決まった動きをすると前提してきた。だがエージェントはその前提をすべて壊す。推論し、即興で動き、頼まれて読んだ文書に埋め込まれたたった一文で乗っ取られる」。

数週間前にはアンソロピックも、エージェント運用の指針として「ゼロトラスト」という考え方を打ち出した。システムは脆弱で、エージェントは攻撃者であり、侵入はいずれ必ず起きる――そう最初から想定して設計する発想だ。トップ企業がそろって自社技術の危うさを警告する構図は、いまのAI業界の異様さをよく映している。

単体を観察しても、群れの挙動は読めない

個々のエージェントや小さな集団を切り離して眺めても、全体がどう振る舞うかは予測できないためだ。そこで研究者たちは、多数のエージェントを仮想空間(サンドボックス)に放ち、その動きをまるごと観察しようとしている。

シュミット・サイエンシズで「信頼できるAIの科学」プログラムを率いるジェームズ・フォックスは、LLM(大規模言語モデル)を土台にしたエージェントが常に合理的に動くとは限らないと指摘する。複雑さは、無数のやり取りが同時に走るところから生まれる。一体ずつ調べても、群れになった瞬間に何が起きるかは見えてこない。

この「群れ」の性質は、リスクの裏返しでもある。グーグルDeepMindの一部の研究者は、AGI(汎用人工知能)が一つの超賢いモデルからではなく、エージェントの「集合知(ハイブマインド)」から立ち上がる可能性を論じてきた。全体の能力が、部分の総和を超える。危険と飛躍が同じ源から生まれるからこそ、群れの観察に意味がある。

「退屈な問題」こそ取りこぼさない

エンジェルは新たな資金を歓迎しつつ、安全研究が陥りがちな罠も指摘する。派手で仮説的な脅威に目を奪われ、すでに目の前にある地味な問題を見落とすことだ。

「どの研究室も、ほかの全員が信じるべき安全基準を単独で書くべきではない」と彼は言う。複数の組織が外から検証する体制こそが健全さの担保になる。一方でフォックスは、数年前なら空想だった危険が、もはや現実になりつつあると認める。「未来は、おそらく予想より速くやってきた」。

数百万のエージェントが行き交う「デジタルの公共空間」を無秩序にしないために、まずは砂場の中で泳がせてみる。その地味な観察作業こそが、まだ存在しない「マルチエージェント安全学」という分野の、最初の一歩になるのかもしれない。