Claude Fable 5の安全制限危ない領域で答えを止めてOpus 4.8に戻す仕組み

Claude Fable 5のニュースで、性能と同じくらい注目されたのが安全への配慮でした。これだけ強いモデルを一般に出すのに、Anthropicがどう歯止めをかけたのか。そこを整理します。

危ない領域では答えを止める

Fable 5は、高リスクな領域では回答をブロックし、Opus 4.8に自動で切り替える(フォールバックする)設計になっています。

Claude Fable 5 and Claude Mythos 5(Anthropic公式)

対象となるのは、大きく3つの領域です。

領域	例
サイバーセキュリティ	脆弱性の発見、悪意あるハッキング
生物・化学	生物兵器・化学兵器に関わるもの
蒸留(distillation)	他社が作ったAIの中身をこっそりマネて似たAIを作る行為

これらに踏み込む要求が来ると、Fable 5は答えず、Opus 4.8に処理を渡します。強い能力を、危険な使い方には向けさせない、という設計です。

95%以上は影響を受けない

「制限が多いと、ふつうの作業まで止められるのでは」と心配する人もいるでしょう。私も最初そう思いました。

Anthropicによると、セッション(AIとの一続きのやりとり)の95%以上はフォールバックなしで動くとされています。つまり、ふつうにコードを書いたり調べ物をしたりする分には、この制限に当たることはほぼない。日常の作業で「急にOpus 4.8に切り替わって困る」場面は、まず起きないと考えていいです。

フォールバックという仕組み自体は、混雑時の控えモデルの話とも通じます。

Claude Codeのフォールバックモデル設定混雑時に自動で別モデルへ逃がす

claudecodelab.jp

Mythos 5との違い

同時に発表されたMythos 5との関係も、ここで整理しておきます。

Fable 5とMythos 5は、土台となるモデルは同じです。違いは安全制限のかけ方。Mythos 5は、サイバー防御やインフラを担う一部の専門家向けに、一部の領域の安全装置を緩めたバージョンで、Project Glasswing(専門家に限定提供するための枠組み)を通じて段階的に提供される予定です。

つまり、一般に広く公開されるのが制限つきのFable 5、限られた専門家に渡されるのが制限を緩めたMythos 5、という住み分けです。誰が使うかで、踏める領域を変えている。

なぜここまで慎重なのか

この慎重さは、Anthropicの最近の動きと地続きです。

少し前にAnthropicは「AI開発の一時停止」を呼びかけ、AIが強くなりすぎるリスクに警鐘を鳴らしました。その数日後に、これまでで最も強いモデルを公開する。一見矛盾していますが、「強いモデルを出すなら、危険な使い方には蓋をする」という形で、両立させようとしているように見えます。

Anthropicが「AI開発の一時停止」を呼びかけた話私たちの使い方は変わるのか

claudecodelab.jp

賛否はあると思いますが、強い道具に安全装置を組み込む方向そのものは、使う側にとっては安心材料です。

使う側が意識しておくこと

非エンジニアの私たちが意識すべきことは、シンプルです。

ふつうの作業では、この制限を意識する必要はまずありません。ただ、セキュリティの調査のような、グレーに見える作業を頼んだときに「急にOpus 4.8に切り替わった」場合は、「あ、安全制限に当たったんだな」と理解できる。挙動の理由が分かっていれば、戸惑わずに済みます。

人間が最後に判断を握る運用の大切さは、変わりません。

Claude Codeを安全に運用する3層チェック体制の作り方

claudecodelab.jp

まとめ

Fable 5は高リスク領域で回答をブロックし、Opus 4.8に自動フォールバックする
対象はサイバーセキュリティ・生物化学・蒸留(能力の無断抽出)の3領域
セッションの95%以上はフォールバックなしで動き、日常作業への影響はほぼない
Mythos 5は同じ土台で一部の安全装置を緩めた専門家向けで、Project Glasswingで段階提供
AI開発一時停止の呼びかけと地続きの、強い道具に安全装置を組む設計
ふだんは意識不要。グレーな作業で切り替わったら安全制限と理解すればよい

危ない領域では答えを止める

95%以上は影響を受けない

Mythos 5との違い

なぜここまで慎重なのか

使う側が意識しておくこと

まとめ

公式マニュアル、準備中です