AI API代を削減するPrompt Cachingの実践ガイド

取り上げられているツール一覧
各ツールの特徴
用途別の選び方
共通する選定ポイント
まとめ
1. 最新AIツールを毎日日本語でレビュー

取り上げられているツール一覧

本記事では、AI APIの利用料削減を目的としたPrompt Cachingの技術に焦点を当て、以下の3つの主要なAIプロバイダーにおける仕様と実践方法を比較・解説しています。

Anthropic (Claude)
OpenAI (GPT)
Google (Gemini)

各ツールの特徴

Prompt Cachingの基本原理

LLMは、AttentionメカニズムにおいてKVキャッシュ（Key-Valueキャッシュ）を用いて中間状態を保持します。しかし、通常はリクエストごとにこのキャッシュが破棄されるため、同じプロンプトでも毎回再計算が発生しコストが増大します。Prompt Cachingは、このKVキャッシュを再利用することで、計算コストを削減し、応答速度を向上させる技術です。キャッシュヒットの絶対条件は、プロンプトの先頭からのプレフィックス（接頭辞）が一致することです。一部でも異なるとキャッシュは無効になります。

3社のキャッシュ仕様比較

各社でPrompt Cachingの有効化方法、最小トークン数、プレフィックス共有の条件、割引率、TTL（Time To Live）、監視フィールド、ブレークポイント上限、共有スコープなどが異なります。

Anthropic (Claude): cache_controlによる明示的な有効化が必要です。ブレークポイントの設定スキルが求められますが、割引率が最も大きい傾向があります。
OpenAI (GPT): 基本的に完全自動でキャッシュが有効化されます。コード変更は不要で、利用料金の明細で効果を確認できます。
Google (Gemini): バージョン2.5以降は暗黙的なキャッシュが標準装備されています。長文ドキュメントの利用に適しており、明示的なキャッシュ機能も提供されています。

キャッシュ前提のプロンプト設計原則

キャッシュヒット率を最大化するためには、プロンプトの設計が重要です。

原則1: 「固定 → 半固定 → 動的」の順で積む: ロール定義やフォーマット指示などの不変情報を先頭に、会話履歴やRAGで取得した情報を中間に、ユーザーメッセージなどの動的情報を末尾に配置します。
原則2: ツール定義は最前面に置く: Function callingやTool useのスキーマ定義はトークン数を多く消費するため、最前面に固定することでキャッシュ対象となります。
原則3: 会話履歴はappend-onlyで増やす: 過去のメッセージを要約や編集で書き換えるとキャッシュが無効になるため、履歴は後ろに追記する形式を維持します。
原則4: ユーザー固有情報・時刻情報は末尾へ: セッションIDやリクエスト時刻などの動的な情報は、システムプロンプトの先頭ではなく、末尾の動的ブロックやユーザーメッセージ内に配置します。
原則5: 「今日の日付」をシステム先頭に入れない: 日付が変わるとキャッシュが切れるため、日付情報も動的ブロックやユーザーメッセージ側に配置します。