AIで、一人の限界を超えるメディアプラットフォーム

ベンチマークに関する最新テックニュース

2026年5月22日 OpenAI推論モデル、未解決の数学予想を解いた——70年前のErdős問題に決着
The first AI proof worthy of math's top journal landed and it won't be the last

OpenAIの推論モデルが、数学者ポール・エルデシュが1946年に提示した単位距離幾何学の予想を反証する証明を提示した。代数的整数論の手法を用いており、専門家が現在検証を進めている。AIが「未解決問題に貢献する道具」段階から「単独で結論を提示する主体」段階に踏み込んだ最初の事例の一つ。

Read full article at THE DECODER
2026年5月19日 Cursor「Composer 2.5」、Opus 4.7とGPT-5.5にベンチマーク追従——コストは数分の一
Cursor's Composer 2.5 matches Opus 4.7 and GPT-5.5 benchmarks at a fraction of the cost

AIコーディング環境CursorがComposer 2.5を公開した。Kimi K2.5を基盤に前世代の25倍の合成タスクで訓練し、ベンチマークでOpus 4.7とGPT-5.5に並ぶ性能を、数分の一のコストで提供すると主張する。中堅モデルの追い上げが鮮明化している。

Read full article at THE DECODER
2026年5月17日 4つのAIモデルが6ヶ月ラジオ局を運用——「人格の分岐」が観測された
Four AI models ran radio stations for six months and the results ranged from competent to unhinged

評価機関Andon Labsが、同一の起動条件で4つのAIモデル(Claude含む)にそれぞれラジオ局の自律運用を6ヶ月任せた実験を実施した。各モデルが「コンピテント」から「常軌を逸した」まで異なる人格を示し、長期自律運用における「キャラクター漂流」が観測可能な実証データになった。

Read full article at THE DECODER
2026年5月16日 Claude Mythos・GPT-5.5、ブラウザ脆弱性を自律発見——CMU新ベンチマーク
New benchmark shows Claude Mythos and GPT-5.5 can develop real browser exploits autonomously

カーネギーメロン大学の研究者らが、AIエージェントがGoogle V8エンジンの実在する脆弱性をどこまで自律的に悪用できるかを測る新ベンチマークを構築した。Claude Mythosが大差でGPT-5.5を上回ったと報告されている。AIによる脆弱性発見能力が攻撃側に転用される境界が、改めてベンチマーク化された。

Read full article at THE DECODER
上部へスクロール