News category
ベンチマーク
ベンチマークに関するニュースを日付順に読む。
ベンチマークのニュース
AnthropicがClaude Opus 4.8公開——主要指標でGPT-5.5を上回る
Anthropic / 2026.05.29
Anthropic は5月28日、新フラッグシップモデル Claude Opus 4.8 を公開した。コーディングや金融分析などの標準評価で前モデルを上回り、多くのベンチマークで GPT-5.5 を超えたとする。改善幅は「控えめだが実感できる水準」とされ、誤りを認める「正直さ」と複数サブエージェントを束ねる新ツール Dynamic Workflows を備える。
報道: [THE DECODER](https://the-decoder.com/anthropic-ships-claude-opus-4-8-as-a-modest-but-tangible-improvement-that-tops-gpt-5-5-in-most-benchmarks/)
OpenAI推論モデル、未解決の数学予想を解いた——70年前のErdős問題に決着
THE DECODER / 2026.05.22
OpenAIの推論モデルが、数学者ポール・エルデシュが1946年に提示した単位距離幾何学の予想を反証する証明を提示した。代数的整数論の手法を用いており、専門家が現在検証を進めている。AIが「未解決問題に貢献する道具」段階から「単独で結論を提示する主体」段階に踏み込んだ最初の事例の一つ。