News category

AI安全

AI安全に関するニュースを日付順に読む。

AI安全のニュース

today 1本

DeepMind、AIエージェントを内部脅威として管理

THE DECODER / 2026.06.19

Google DeepMindがAIエージェントを社内権限を持つ「内部者リスク」として扱うAI Control Roadmapを提示。能力に応じて監視・制限を強める設計で、エージェント運用の安全管理が焦点になる。

エージェント AI安全 AIガバナンス
1本

OpenAI、モデル失敗率を事前予測する手法

THE DECODER / 2026.06.18

OpenAIの研究者が新モデル公開前にどれだけ誤りを犯すかを予測する手法を提案。標準の安全テストで漏れる欠陥を埋め、本番投入後の失敗頻度を事前に見積もる目的で設計された。

AI安全 ベンチマーク
2本

AI音声詐欺、声の「音色」が信頼を突破する

Neuroscience News / 2026.06.17

研究者は、声の「音色(ティンバー)」が人間の信頼を司る生体的な裏口として働き、AI音声クローン詐欺の被害拡大を説明しているとした。声紋の類似だけで脳は本人と判定するため、内容の妥当性を疑う前に信じてしまう構造が浮かぶ。

AI安全 生成AI

AIモデル、ロシアのプロパガンダに容易に染まる

THE DECODER / 2026.06.17

エストニア言語研究所が、AI言語モデルがロシアのプロパガンダにどれほど影響を受けやすいかを測るベンチマークを公開した。学習データの偏りが回答にそのまま反映されることが定量的に示され、AIの答えを「中立」とみなす前提は崩れつつある。

AI安全 ベンチマーク
2本

Redditで簡単に汚染、AI検索が誤情報を返す

404 Media / 2026.06.16

研究によると、RedditやWikipediaなどユーザー投稿サイトに13語程度の短文を仕込むだけで、AI検索エージェントの出力をスパムや詐欺コンテンツへ一貫して誘導できることが分かった。検索結果を鵜呑みにしない読み方が要る局面に入った。

RAG 生成AI AI安全

Anthropic、Claude FableとMythosを当局指摘で撤回

CNET / 2026.06.16

Anthropicは、米政府が輸出規制の抜け道に該当する可能性を指摘したことを受け、Claude FableとMythosの2モデルを公開停止した。先端AIモデルを政府がどう規制しうるか、その範囲と手続きを巡る論争が広がっている。

AI規制 国家AI主権 AI安全
1本

米国有識者40人が2030年のAIリスクをシナリオ検討

WSJ / 2026.06.14

米国の研究者や政策関係者ら40人が、2030年までにAIが経済・雇用・社会秩序へ与える影響をシナリオ形式で検討した。AIアポカリプスを避けるための議論が、研究室ではなく政策と社会設計の場へ移っている。

AI安全 AIリスク AI政策
2本

OpenAIに新たな死亡訴訟、設計責任を問う

CNET / 2026.06.12

Kristie Carrierが、娘Aliceの自殺をめぐり、ChatGPTの意図的な設計判断が被害につながったとしてOpenAIを提訴した。娘は2023年から実用的な質問でChatGPTを使い、2024年には自殺念慮を打ち明けていた。

AI安全 OpenAI訴訟 倫理

DeepMind、AIエージェント集団リスクを調査

MIT Technology Review / 2026.06.12

Google DeepMindが、数百万のAIエージェントがネット上で相互作用する状況で起きうる障害や暴走の研究に資金を投じる。安全性責任者のRohin Shahは、エージェント時代に固有の集団的リスクを早期に解明する必要があると述べた。

エージェント マルチエージェント AI安全