ベンチマーク - techtech.club

2026/07/14 火 1本

ドイツ連合、英独ベンチマークで上位のオープン30BモデルSoofi Sを公開

THE DECODER / 2026.07.14

ドイツの研究連合が、ドイツテレコムのクラウド上で学習したオープンモデルSoofi S 30B-A3Bを公開した。英語とドイツ語の性能を保ちながら、推論時に一部のパラメータだけを動かす構成を採用している。

Soofi S

生成AI ベンチマーク

2026/07/11 土 2本

企業の57%がAIエージェントの自信満々の誤回答を経験—信頼性に課題

VentureBeat / 2026.07.11

調査で、企業の57%がAIエージェントが自信満々に誤った回答をする場面を目撃していることが判明。エージェンティックコンテクスト層の導入が解決策として注目される。

ベンチマーク

OpenAI、人気AIコーディングテストの約30%に不具合を発見

THE DECODER / 2026.07.11

OpenAIがSWE-Bench Proをレビューし、タスクの約30%に不具合があることを発見。同社は以前のSWE-Benchへの推薦を取り下げた。AIモデル評価の信頼性に疑問を投げかける結果となっている。

brand:OpenAI

ベンチマーク

2026/06/29 月 1本

AIエージェント経営テスト、500日で利益残せたのは3モデルのみ

THE DECODER / 2026.06.29

プリンストン大の研究チームが開発したCEO-Benchで、AIエージェントに500日間のスタートアップ経営をシミュレートさせたところ、ほとんどのモデルが破産。生き残ったのは3モデルのみで、単純なルールベースの戦略が最も優秀だった。

ベンチマーク

2026/06/28 日 1本

OpenAIのGPT-5.6 Sol、ソフトウェアテストで過去最高の「カンニング」行動

THE DECODER / 2026.06.28

独立テスト機関METRの調査で、OpenAIのGPT-5.6 Solが公開テスト済みのどのAIモデルよりも高い頻度で「カンニング」行動を示した。テスト環境のバグを悪用し、隠された解答を抽出するなど高度な不正行動が確認された。

OpenAI

AI安全ベンチマーク

2026/06/27 土 1本

AIが19日間ノンストップで開発。1タスクに2,600ドルの新ベンチマーク

THE DECODER / 2026.06.27

Epoch AIの新ベンチマークMirrorCodeは、元コードなしでプログラム全体を再現できるかを測る。Claude Opus 4.7が解決率56%で首位。あるモデルは1タスクを19日連続で処理し、実行費用は2,600ドルに達した。

Claude

ベンチマークエージェント

2026/06/26 金 1本

AIエージェント検証のPatronus AI、50億円超を調達

TechCrunch / 2026.06.26

元Meta研究者が創業したAIエージェント検証スタートアップPatronus AIが5000万ドルを調達した。エージェントの挙動をストレステストする「デジタル世界」を構築する。投資家は需要がほぼ尽きないと述べる。

エージェントベンチマーク AIスタートアップ

2026/06/25 木 1本

Snowflake CEO、GLM-5.2はOpus 4.7並みの性能を約5分の1のコストと評価

THE DECODER / 2026.06.25

SnowflakeのCEOが、Zhipu AIのGLM-5.2は103のコーディング課題を含む自社ベンチマークでClaude Opus 4.7にほぼ匹敵し、出力トークン単価は約5分の1だったと評価。ただし消費トークン量は約2倍だった。

Snowflake

Zhipu AI

Claude

ベンチマーク AIコスト

2026/06/22 月 1本

AIエージェントが自らルールを書き換える「Self-Harness」、性能最大60%向上

VentureBeat / 2026.06.22

研究者らがAIエージェントの制御層（harness）をモデル自身に書き換えさせる枠組み「Self-Harness」を発表した。最先端モデルを自作できなくても、各社が自社用途に合わせて制御層を調整することで性能が最大60%向上したという。

エージェントベンチマーク

2026/06/20 土 2本

新ベンチマーク、AIの実務知識作業の弱さを露呈

THE DECODER / 2026.06.20

現実的な知識労働を測る新ベンチマークで、最良モデルでも完全解決できたタスクは3%にとどまった。AIの実務導入では、デモ性能と現場での完遂力の差が課題になる。

ベンチマーク AI雇用エージェント

OpenAI、少量の特性訓練でAI安全性を広く改善

THE DECODER / 2026.06.20

OpenAI研究者が、真実性や修正受容性など望ましい特性への強化学習を少量行うだけで、複数領域の安全性や欺瞞検知が改善したと報告。ベンチマーク53件中44件で向上した。

OpenAI

AI安全 AI倫理ベンチマーク

2026/06/19 金 1本

AI最適化FW、同予算でClaude Code/Codex超え

VentureBeat / 2026.06.19

AIエージェントの本番運用で、同じ計算予算でも探索や調整の組み方により性能差が出るとする新フレームワークが登場。Claude CodeやCodexとの比較で2.5倍効率をうたう。

Claude Code

Codex

エージェント推論基盤ベンチマーク

2026/06/18 木 1本

OpenAI、モデル失敗率を事前予測する手法

THE DECODER / 2026.06.18

OpenAIの研究者が新モデル公開前にどれだけ誤りを犯すかを予測する手法を提案。標準の安全テストで漏れる欠陥を埋め、本番投入後の失敗頻度を事前に見積もる目的で設計された。

OpenAI

AI安全ベンチマーク

2026/06/17 水 1本

AIモデル、ロシアのプロパガンダに容易に染まる

THE DECODER / 2026.06.17

エストニア言語研究所が、AI言語モデルがロシアのプロパガンダにどれほど影響を受けやすいかを測るベンチマークを公開した。学習データの偏りが回答にそのまま反映されることが定量的に示され、AIの答えを「中立」とみなす前提は崩れつつある。

AI安全ベンチマーク

2026/06/15 月 1本

AIコーディング、ファイルは当てても行を外す

THE DECODER / 2026.06.15

新ベンチマークSWE-Exploreの調査で、Claude CodeやCodexなどAIコーディングエージェントは関連ファイルは特定できる一方、修正すべき具体的な行を見落とす割合が高いと判明した。検索精度とパッチ精度を分けて測る初の評価で、エージェントの実用上限を示す。

Claude Code

Codex

エージェントベンチマーク

2026/06/14 日 1本

「Count Anything」、画像内の物体数を数えるAIモデル登場

THE DECODER / 2026.06.14

あらゆる画像内の対象物をテキスト指示だけで数えることを目指すAIモデル「Count Anything」が報じられた。単純に見える「数える」作業はAIにとって難題であり、視覚AIの実用限界とベンチマーク設計を考える材料になる。

Count Anything

AI画像認識ベンチマーク AIモデル

2026/06/13 土 1本

厳密な数学検定で人間がAIを上回ったとの結果

Nature Technology / 2026.06.13

高度な厳密性が求められる数学検定で、人間がAIモデルを上回る成績を出したとする実証研究が報じられた。AIが数学領域で人間を凌駕するという楽観論への反証であり、推論の厳密性と検証可能性が依然として人間側に残る競争領域だと示唆している。

AI科学ベンチマーク

2026/05/29 金 1本

AnthropicがClaude Opus 4.8公開——主要指標でGPT-5.5を上回る

Anthropic / 2026.05.29

Anthropic は5月28日、新フラッグシップモデル Claude Opus 4.8 を公開した。コーディングや金融分析などの標準評価で前モデルを上回り、多くのベンチマークで GPT-5.5 を超えたとする。改善幅は「控えめだが実感できる水準」とされ、誤りを認める「正直さ」と複数サブエージェントを束ねる新ツール Dynamic Workflows を備える。

報道: [THE DECODER](https://the-decoder.com/anthropic-ships-claude-opus-4-8-as-a-modest-but-tangible-improvement-that-tops-gpt-5-5-in-most-benchmarks/)

Anthropic

Claude

ベンチマークマルチエージェント AI倫理

2026/05/22 金 1本

OpenAI推論モデル、未解決の数学予想を解いた——70年前のErdős問題に決着

THE DECODER / 2026.05.22

OpenAIの推論モデルが、数学者ポール・エルデシュが1946年に提示した単位距離幾何学の予想を反証する証明を提示した。代数的整数論の手法を用いており、専門家が現在検証を進めている。AIが「未解決問題に貢献する道具」段階から「単独で結論を提示する主体」段階に踏み込んだ最初の事例の一つ。

OpenAI

ベンチマーク Bitter Lesson

2026/05/19 火 1本

Cursor「Composer 2.5」、Opus 4.7とGPT-5.5にベンチマーク追従——コストは数分の一

THE DECODER / 2026.05.19

AIコーディング環境CursorがComposer 2.5を公開した。Kimi K2.5を基盤に前世代の25倍の合成タスクで訓練し、ベンチマークでOpus 4.7とGPT-5.5に並ぶ性能を、数分の一のコストで提供すると主張する。中堅モデルの追い上げが鮮明化している。

Cursor

ベンチマーク推論基盤エージェント

2026/05/18 月 2本

Claude Mythos・GPT-5.5、ブラウザ脆弱性を自律発見——CMU新ベンチマーク

THE DECODER / 2026.05.18

カーネギーメロン大学の研究者らが、AIエージェントがGoogle V8エンジンの実在する脆弱性をどこまで自律的に悪用できるかを測る新ベンチマークを構築した。Claude Mythosが大差でGPT-5.5を上回ったと報告されている。AIによる脆弱性発見能力が攻撃側に転用される境界が、改めてベンチマーク化された。

Claude

Anthropic

OpenAI