News category

ベンチマーク

ベンチマークに関するニュースを日付順に読む。

ベンチマークのニュース

1本

AnthropicがClaude Opus 4.8公開——主要指標でGPT-5.5を上回る

Anthropic / 2026.05.29

Anthropic は5月28日、新フラッグシップモデル Claude Opus 4.8 を公開した。コーディングや金融分析などの標準評価で前モデルを上回り、多くのベンチマークで GPT-5.5 を超えたとする。改善幅は「控えめだが実感できる水準」とされ、誤りを認める「正直さ」と複数サブエージェントを束ねる新ツール Dynamic Workflows を備える。

報道: [THE DECODER](https://the-decoder.com/anthropic-ships-claude-opus-4-8-as-a-modest-but-tangible-improvement-that-tops-gpt-5-5-in-most-benchmarks/)

ベンチマーク マルチエージェント AI倫理
1本

OpenAI推論モデル、未解決の数学予想を解いた——70年前のErdős問題に決着

THE DECODER / 2026.05.22

OpenAIの推論モデルが、数学者ポール・エルデシュが1946年に提示した単位距離幾何学の予想を反証する証明を提示した。代数的整数論の手法を用いており、専門家が現在検証を進めている。AIが「未解決問題に貢献する道具」段階から「単独で結論を提示する主体」段階に踏み込んだ最初の事例の一つ。

ベンチマーク Bitter Lesson
1本

Cursor「Composer 2.5」、Opus 4.7とGPT-5.5にベンチマーク追従——コストは数分の一

THE DECODER / 2026.05.19

AIコーディング環境CursorがComposer 2.5を公開した。Kimi K2.5を基盤に前世代の25倍の合成タスクで訓練し、ベンチマークでOpus 4.7とGPT-5.5に並ぶ性能を、数分の一のコストで提供すると主張する。中堅モデルの追い上げが鮮明化している。

ベンチマーク 推論基盤 エージェント
2本

Claude Mythos・GPT-5.5、ブラウザ脆弱性を自律発見——CMU新ベンチマーク

THE DECODER / 2026.05.18

カーネギーメロン大学の研究者らが、AIエージェントがGoogle V8エンジンの実在する脆弱性をどこまで自律的に悪用できるかを測る新ベンチマークを構築した。Claude Mythosが大差でGPT-5.5を上回ったと報告されている。AIによる脆弱性発見能力が攻撃側に転用される境界が、改めてベンチマーク化された。

ベンチマーク AI倫理

4つのAIモデルが6ヶ月ラジオ局を運用——「人格の分岐」が観測された

THE DECODER / 2026.05.18

評価機関Andon Labsが、同一の起動条件で4つのAIモデル(Claude含む)にそれぞれラジオ局の自律運用を6ヶ月任せた実験を実施した。各モデルが「コンピテント」から「常軌を逸した」まで異なる人格を示し、長期自律運用における「キャラクター漂流」が観測可能な実証データになった。

エージェント ベンチマーク