「同じことを何度も教えている」

私たちのAIは、お客様から質問を受けるたびに、店舗の全情報をAIに渡していました。店名、住所、電話番号、営業時間、メニュー、FAQ——全部で約3,000トークン。

1日に1,000件の問い合わせがあれば、300万トークン。そのほとんどが、毎回同じ情報です。

AIに「うちの店は何時まで開いてる？」と聞くたびに、私たちは最初から店のことを全部説明していたのです。まるで、毎朝自己紹介から始める職場のようなものです。

「一度教えたら、覚えておいて」

AnthropicとOpenAIが提供するContext Caching機能は、まさにこの問題を解決します。

変わらない情報（店舗基本情報、メニュー、FAQ）をキャッシュに保存。お客様からの質問があるたびに、「変わる情報」だけを追加で渡します。

AIは、キャッシュされた情報を「覚えている」状態で返答します。

キャッシュ導入後の数字です。

キャッシュヒット率は85%。つまり、85%のリクエストで、店舗情報を一から送り直す必要がなくなりました。

月間API費用は200万円から40万円へ。80%の削減です。

一つだけ注意点があります。キャッシュは、プロンプトの先頭から一致した部分だけが有効になります。

私たちは、変わらない情報を先頭に、変わる情報（今日の空席状況など）を後ろに配置するようにプロンプトを再設計しました。

AIに同じことを何度も教えない。シンプルな原則が、80%のコスト削減をもたらしました。