Claude Fable 5のニュースで飛び交う数字を、落ち着いて読み解きます。ベンチマーク(性能を測るテスト)の結果は派手ですが、非エンジニアにとって大事なのは「で、それが何を意味するのか」です。
モデル自体の概要は別記事に。
SWE-benchという代表的なテスト
コーディングAIの性能を測る代表的なテストに、SWE-bench(エスダブリューイー・ベンチ)があります。実際のソフトウェアの不具合を、AIがどれだけ直せるかを測るものです。
そのうち品質を精査した「SWE-bench Verified」で、Fable 5は各種の集計(2026年6月時点)によると95%前後とされ、Opus 4.8の88.6%を上回ります。ただし、この数値はAnthropicが公式に発表したものではなく、第三者の集計による点に注意してください。Anthropic公式は、ほぼすべてのテストで最高水準、CognitionのFrontierCodeという評価で最高スコア、といった表現で性能を説明しています。
Opus 4.8のベンチマークの読み方は、別記事に整理しています。
数字より「どこで伸びたか」が大事
ここで強調したいのは、数字の高さそのものより「どこで伸びたか」です。
報じられている分析では、Fable 5の伸びは、いちばん長くて難しい作業に集中しているとされます。短い簡単な作業ではどのモデルも高得点を取れますが、差がつくのは長丁場の難問。そこでFable 5が大きく引き離した、という構図です。
これは「2ヶ月の移行を1日で」という話とぴたりと重なります。長く複雑な作業ほど効く、というモデルの性格が、数字にも出ているわけです。
「より少ない手数」で終わる
もうひとつ、効率の話があります。
GitHubの内部テストでは、Fable 5は同じ自律的な作業を、これまでのOpusクラスのモデルより少ないツール呼び出しと、少ないトークン(AIが読み書きする文字量の単位で、これが料金に響きます)消費で終えた、と報告されています。ツール呼び出しというのは、AIが作業中にコマンドを実行したりファイルを読んだりする回数のこと。
つまり、回り道が減って、まっすぐ答えにたどり着く。料金は2倍でも、手数が減ればトータルのコストはその分だけ相殺されます。料金との兼ね合いは別記事に。
ベンチマークが高い=何でも上、ではない
数字が高いと「あらゆる作業でいちばん」と思いがちですが、そこは注意が要ります。
ベンチマークは、決められた種類の作業での成績です。Fable 5が長丁場の難問で強いことと、あなたの軽い日常作業でいちばんお得かは、別の話。実際、軽い作業ならOpus 4.8やSonnetのほうが、速くて安く済みます。
ベンチマークの数字は「このモデルがどこで強いか」を示す地図であって、「どんなときも使え」という指示ではありません。地図として読むのが正解です。
数字を自分の作業に翻訳する
正直に言うと、非エンジニアがSWE-benchの数字そのものを使う場面はありません。大事なのは翻訳です。
「長くて難しい作業で大きく伸びた」という事実を、自分の言葉に直すと、「これまでAIに任せると途中で崩れていた大きな仕事が、最後まで任せられる範囲に入ってきた」になります。数字の細かさより、この方向の変化をつかんでおくほうが実用的です。
数字は出典と日付で確認する
最後に注意を。新モデルのベンチマークは、出典によって少しずつ数字が違うことがあります。テストにもいくつか種類があり(VerifiedやProなど)、どれで測ったかでも値は変わる。
数字を引用するときは、どのテストの、いつの、誰が出した数字かを確認する。これはAIに限らず、性能の話を扱うときの基本です。私も記事を書くときは、必ず一次情報の発表元に当たるようにしています。
まとめ
- Fable 5はSWE-bench Verifiedで95%前後(第三者集計)とされ、Opus 4.8の88.6%を上回る
- 数字の高さより「長くて難しい作業で大きく伸びた」点が重要
- 短い作業では差がつかず、長丁場の難問でFable 5が引き離す
- GitHubの内部テストでは少ないツール呼び出し・少ないトークンで完了したと報告
- 非エンジニアは数字より「大きな仕事を最後まで任せられる」変化をつかむ
- ベンチマークはテストの種類・出典・日付を確認して読む
